論文の概要: Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation
- arxiv url: http://arxiv.org/abs/2603.05291v1
- Date: Thu, 05 Mar 2026 15:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.942597
- Title: Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation
- Title(参考訳): 言語依存マニピュレーションのための階層的拡散政策の反復的オン・ポリケーション
- Authors: Clemence Grislain, Olivier Sigaud, Mohamed Chetouani,
- Abstract要約: HD-ExpItは環境フィードバックによる階層的拡散ポリシーの反復的微調整のためのフレームワークである。
オフラインデータのみにトレーニングされた階層的なポリシを大幅に改善する。
- 参考スコア(独自算出の注目度): 6.115550515200226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical policies for language-conditioned manipulation decompose tasks into subgoals, where a high-level planner guides a low-level controller. However, these hierarchical agents often fail because the planner generates subgoals without considering the actual limitations of the controller. Existing solutions attempt to bridge this gap via intermediate modules or shared representations, but they remain limited by their reliance on fixed offline datasets. We propose HD-ExpIt, a framework for iterative fine-tuning of hierarchical diffusion policies via environment feedback. HD-ExpIt organizes training into a self-reinforcing cycle: it utilizes diffusion-based planning to autonomously discover successful behaviors, which are then distilled back into the hierarchical policy. This loop enables both components to improve while implicitly grounding the planner in the controller's actual capabilities without requiring explicit proxy models. Empirically, HD-ExpIt significantly improves hierarchical policies trained solely on offline data, achieving state-of-the-art performance on the long-horizon CALVIN benchmark among methods trained from scratch.
- Abstract(参考訳): 言語条件の操作のための階層的なポリシーはタスクをサブゴールに分解し、高レベルプランナーが低レベルコントローラを誘導する。
しかし、これらの階層的エージェントは、しばしば失敗する。それは、プランナーがコントローラの実際の制限を考慮せずにサブゴールを生成するためである。
既存のソリューションでは、中間モジュールや共有表現を通じてこのギャップを埋めようとしているが、固定されたオフラインデータセットへの依存によって制限されている。
環境フィードバックによる階層的拡散ポリシーの反復的微調整のためのフレームワークであるHD-ExpItを提案する。
HD-ExpItは、トレーニングを自己強化サイクルに編成する。拡散ベースのプランニングを使用して、成功した振る舞いを自律的に発見する。
このループにより、どちらのコンポーネントも、明示的なプロキシモデルを必要とせずに、コントローラの実際の機能にプランナーを暗黙的に配置しながら改善できる。
実証的には、HD-ExpItはオフラインデータのみにトレーニングされた階層的なポリシーを大幅に改善し、長い水平CALVINベンチマークにおける最先端のパフォーマンスをスクラッチからトレーニングされたメソッドの中で達成した。
関連論文リスト
- Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。
近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。
我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Offline Hierarchical Reinforcement Learning via Inverse Optimization [23.664330010602708]
OHIOは、階層的ポリシーのオフライン強化学習のためのフレームワークである。
エンド・ツー・エンドのRL法を大幅に上回り、ロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-10T14:00:21Z) - AD-H: Autonomous Driving with Hierarchical Agents [64.49185157446297]
我々は,ハイレベル命令と低レベル制御信号を中間言語駆動の命令に接続することを提案する。
我々は、AD-Hという階層型マルチエージェント駆動システムを用いて、このアイデアを実装した。
論文 参考訳(メタデータ) (2024-06-05T17:25:46Z) - Feudal Graph Reinforcement Learning [18.069747511100132]
グラフに基づく表現とメッセージパッシングモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである
本稿では,階層的RLとピラミッド型メッセージパッシングアーキテクチャを頼りに,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。
特に、FGRLは階層化されたグラフ構造を通して、階層の上部から上位のコマンドが伝播するポリシーの階層を定義している。
論文 参考訳(メタデータ) (2023-04-11T09:51:13Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。