論文の概要: Push Smarter, Not Harder: Hierarchical RL-Diffusion Policy for Efficient Nonprehensile Manipulation
- arxiv url: http://arxiv.org/abs/2512.10099v1
- Date: Wed, 10 Dec 2025 21:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.072472
- Title: Push Smarter, Not Harder: Hierarchical RL-Diffusion Policy for Efficient Nonprehensile Manipulation
- Title(参考訳): より賢く、より硬くはない:効率的な非包括的操作のための階層的RL拡散政策
- Authors: Steven Caro, Stephen L. Smith,
- Abstract要約: HeRDは階層的な強化学習拡散政策であり、プッシュタスクを高レベルの目標選択と低レベルの軌道生成という2つのレベルに分解する。
我々は、中間空間目標を選択するための高レベル強化学習エージェントと、それに到達するための実用的で効率的な軌道を生成するための低レベル目標条件拡散モデルを用いる。
この結果から,階層的制御を低レベル計画に組み込むことが,スケーラブルで目標指向の非包括的操作において有望な方向であることが示唆された。
- 参考スコア(独自算出の注目度): 8.7216199131049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nonprehensile manipulation, such as pushing objects across cluttered environments, presents a challenging control problem due to complex contact dynamics and long-horizon planning requirements. In this work, we propose HeRD, a hierarchical reinforcement learning-diffusion policy that decomposes pushing tasks into two levels: high-level goal selection and low-level trajectory generation. We employ a high-level reinforcement learning (RL) agent to select intermediate spatial goals, and a low-level goal-conditioned diffusion model to generate feasible, efficient trajectories to reach them. This architecture combines the long-term reward maximizing behaviour of RL with the generative capabilities of diffusion models. We evaluate our method in a 2D simulation environment and show that it outperforms the state-of-the-art baseline in success rate, path efficiency, and generalization across multiple environment configurations. Our results suggest that hierarchical control with generative low-level planning is a promising direction for scalable, goal-directed nonprehensile manipulation. Code, documentation, and trained models are available: https://github.com/carosteven/HeRD.
- Abstract(参考訳): 乱雑な環境にオブジェクトをプッシュするような非包括的操作は、複雑な接触ダイナミクスと長期計画要求のために困難な制御問題をもたらす。
本研究では,高次目標選択と低次軌道生成の2段階に分割した階層型強化学習拡散政策HeRDを提案する。
我々は、中間空間目標を選択するために高レベル強化学習(RL)エージェントと、それに到達するための実用的で効率的な軌道を生成するために低レベル目標条件拡散モデルを用いる。
このアーキテクチャは、RLの長期報酬最大化挙動と拡散モデルの生成能力を組み合わせる。
提案手法を2次元シミュレーション環境において評価し, 成功率, 経路効率, 一般化における最先端のベースラインよりも優れていることを示す。
この結果から,階層的制御を低レベル計画に組み込むことが,スケーラブルで目標指向の非包括的操作において有望な方向であることが示唆された。
コード、ドキュメンテーション、トレーニングされたモデルは以下の通りである。
関連論文リスト
- Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Flattening Hierarchies with Policy Bootstrapping [5.528896840956629]
本稿では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。
提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-20T23:31:30Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。