論文の概要: Multi-Stage Manipulation with Demonstration-Augmented Reward, Policy, and World Model Learning
- arxiv url: http://arxiv.org/abs/2503.01837v1
- Date: Mon, 03 Mar 2025 18:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:08.147033
- Title: Multi-Stage Manipulation with Demonstration-Augmented Reward, Policy, and World Model Learning
- Title(参考訳): Demonstration-Augmented Reward, Policy, and World Model Learning によるマルチステージマニピュレーション
- Authors: Adrià López Escoriza, Nicklas Hansen, Stone Tao, Tongzhou Mu, Hao Su,
- Abstract要約: ロボット操作における長期作業は、強化学習において重要な課題である。
視覚入力から効率的に学習するためのフレームワークであるDEMO3を提案する。
評価の結果,データ効率は平均40%,特に困難なタスクでは70%向上した。
- 参考スコア(独自算出の注目度): 23.113399772741108
- License:
- Abstract: Long-horizon tasks in robotic manipulation present significant challenges in reinforcement learning (RL) due to the difficulty of designing dense reward functions and effectively exploring the expansive state-action space. However, despite a lack of dense rewards, these tasks often have a multi-stage structure, which can be leveraged to decompose the overall objective into manageable subgoals. In this work, we propose DEMO3, a framework that exploits this structure for efficient learning from visual inputs. Specifically, our approach incorporates multi-stage dense reward learning, a bi-phasic training scheme, and world model learning into a carefully designed demonstration-augmented RL framework that strongly mitigates the challenge of exploration in long-horizon tasks. Our evaluations demonstrate that our method improves data-efficiency by an average of 40% and by 70% on particularly difficult tasks compared to state-of-the-art approaches. We validate this across 16 sparse-reward tasks spanning four domains, including challenging humanoid visual control tasks using as few as five demonstrations.
- Abstract(参考訳): ロボット操作における長期作業は、高密度報酬関数の設計が困難であり、拡張状態の空間を効果的に探索することによる強化学習(RL)において大きな課題を呈している。
しかし、高い報酬がないにもかかわらず、これらのタスクは多段階構造を持ち、全体目標を管理可能なサブゴールに分解するために利用することができる。
本研究では,この構造を利用して視覚入力から効率的に学習するDEMO3を提案する。
具体的には,多段階密集報酬学習,双相学習,世界モデル学習を,長期作業における探索の課題を強く軽減する,慎重に設計された実演強化RLフレームワークに組み込む。
提案手法は,最先端手法と比較して,特に困難なタスクにおいて,平均40%,70%の効率でデータ効率を向上することを示す。
我々はこれを、4つの領域にまたがる16のスパース・リワードタスクにまたがって検証し、わずか5つのデモを用いてヒューマノイド視覚制御タスクに挑戦する。
関連論文リスト
- Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Learning from Pixels with Expert Observations [0.0]
本稿では,ロボット操作作業における専門的な観察から学ぶための新しいアプローチを提案する。
具体的には、目標条件付きRLエージェントの中間的視覚目標として専門家観測を用いる。
シミュレーションにおける5つのブロック構築課題において,本手法の有効性を実証し,2つの最先端エージェントと組み合わせることで,その性能を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2023-06-24T05:57:05Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Wish you were here: Hindsight Goal Selection for long-horizon dexterous
manipulation [14.901636098553848]
スパース報酬をサンプル効率のよい方法で解くことは、現代の強化学習の課題である。
既存の戦略はタスク非依存のゴール分布に基づいて検討されており、これは長軸タスクの解を非現実的なものにすることができる。
実験を成功させた少数の事例によって示されるタスク固有の分布に沿った探索をガイドするために、後視リラベリング機構を拡張した。
論文 参考訳(メタデータ) (2021-12-01T16:12:32Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。