論文の概要: Active Fine-Tuning of Generalist Policies
- arxiv url: http://arxiv.org/abs/2410.05026v1
- Date: Mon, 7 Oct 2024 13:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:38:19.139428
- Title: Active Fine-Tuning of Generalist Policies
- Title(参考訳): 一般政策のアクティブ微調整
- Authors: Marco Bagatella, Jonas Hübotter, Georg Martius, Andreas Krause,
- Abstract要約: AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
- 参考スコア(独自算出の注目度): 54.65568433408307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained generalist policies are rapidly gaining relevance in robot learning due to their promise of fast adaptation to novel, in-domain tasks. This adaptation often relies on collecting new demonstrations for a specific task of interest and applying imitation learning algorithms, such as behavioral cloning. However, as soon as several tasks need to be learned, we must decide which tasks should be demonstrated and how often? We study this multi-task problem and explore an interactive framework in which the agent adaptively selects the tasks to be demonstrated. We propose AMF (Active Multi-task Fine-tuning), an algorithm to maximize multi-task policy performance under a limited demonstration budget by collecting demonstrations yielding the largest information gain on the expert policy. We derive performance guarantees for AMF under regularity assumptions and demonstrate its empirical effectiveness to efficiently fine-tune neural policies in complex and high-dimensional environments.
- Abstract(参考訳): 事前訓練されたジェネラリスト政策は、新しいドメイン内タスクへの迅速な適応を約束するロボット学習において、急速に関連性を高めている。
この適応はしばしば、特定の興味のあるタスクに対する新しいデモンストレーションの収集と、行動クローニングのような模倣学習アルゴリズムの適用に依存している。
しかしながら、いくつかのタスクを学習する必要があるとすぐに、どのタスクを実演するか、どれくらいの頻度で実施するかを決めなければなりません。
このマルチタスク問題を考察し、エージェントが示すタスクを適応的に選択する対話型フレームワークを探索する。
本稿では,AMF (Active Multi-task Fine-tuning) を提案する。AMF(Active Multi-task Fine-tuning) は,専門家の方針に最も大きな情報を得る実演を収集することにより,限られた実証予算下でのマルチタスクポリシー性能を最大化するアルゴリズムである。
我々はAMFの性能保証を正則性仮定で導き、複雑で高次元の環境で効率的に微調整されたニューラルポリシーを実現するための実証的な効果を実証する。
関連論文リスト
- Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation [49.43094200366251]
本稿では,タスク分解のセマンティック理解を生かした,未確認タスクへの数発適応のための新しいアプローチを提案する。
我々の手法であるPALO(Policy Adaptation via Language Optimization)は,タスクのいくつかの実演と,提案する言語分解とを組み合わせる。
PALOは、実世界の長期・多層的なタスクを一貫して完了することができ、事前訓練されたジェネラリスト政策の状況よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T03:03:35Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Learning Multi-Task Transferable Rewards via Variational Inverse
Reinforcement Learning [10.782043595405831]
我々は、生成的対向ネットワークの枠組みに基づく複数のタスクを伴う状況に対して、エンパワーメントに基づく正規化手法を拡張した。
未知のダイナミクスを持つマルチタスク環境下では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。
提案手法は, 状況的相互情報の変動的下限を導出し, 最適化する。
論文 参考訳(メタデータ) (2022-06-19T22:32:41Z) - Leveraging convergence behavior to balance conflicting tasks in
multi-task learning [3.6212652499950138]
マルチタスク学習は、パフォーマンスの一般化を改善するために相関タスクを使用する。
タスクは互いに衝突することが多いため、複数のタスクの勾配をどのように組み合わせるべきかを定義するのは難しい。
バックプロパゲーション中の各タスクの重要度を調整する動的バイアスを生成するために,勾配の時間的挙動を考慮した手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T01:52:34Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。