Fugu-MT 論文翻訳(概要): REFINE-DP: Diffusion Policy Fine-tuning for Humanoid Loco-manipulation via Reinforcement Learning

論文の概要: REFINE-DP: Diffusion Policy Fine-tuning for Humanoid Loco-manipulation via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.13707v1
Date: Sat, 14 Mar 2026 02:21:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.352598
Title: REFINE-DP: Diffusion Policy Fine-tuning for Humanoid Loco-manipulation via Reinforcement Learning
Title（参考訳）: REFINE-DP:強化学習によるヒューマノイドロコ操作のための拡散政策微調整
Authors: Zhaoyuan Gu, Yipu Chen, Zimeng Chai, Alfred Cueva, Thong Nguyen, Yifan Wu, Huishu Xue, Minji Kim, Isaac Legene, Fukang Liu, Matthew Kim, Ayan Barula, Yongxin Chen, Ye Zhao,
Abstract要約: 本稿では,DP高レベルプランナとRLに基づく低レベルロコ操作制御を協調的に最適化する階層型フレームワークであるREFINE-DPを提案する。 REFINE-DPは、事前訓練されたデータに見られない配布外ケースであっても、シミュレーションで90%以上の成功率を達成する。
参考スコア（独自算出の注目度）: 23.094280494500214
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humanoid loco-manipulation requires coordinated high-level motion plans with stable, low-level whole-body execution under complex robot-environment dynamics and long-horizon tasks. While diffusion policies (DPs) show promise for learning from demonstrations, deploying them on humanoids poses critical challenges: the motion planner trained offline is decoupled from the low-level controller, leading to poor command tracking, compounding distribution shift, and task failures. The common approach of scaling demonstration data is prohibitively expensive for high-dimensional humanoid systems. To address this challenge, we present REFINE-DP (REinforcement learning FINE-tuning of Diffusion Policy), a hierarchical framework that jointly optimizes a DP high-level planner and an RL-based low-level loco-manipulation controller. The DP is fine-tuned via a PPO-based diffusion policy gradient to improve task success rate, while the controller is simultaneously updated to accurately track the planner's evolving command distribution, reducing the distributional mismatch that degrades motion quality. We validate REFINE-DP on a humanoid robot performing loco-manipulation tasks, including door traversal and long-horizon object transport. REFINE-DP achieves an over $90\%$ success rate in simulation, even in out-of-distribution cases not seen in the pre-trained data, and enables smooth autonomous task execution in real-world dynamic environments. Our proposed method substantially outperforms pre-trained DP baselines and demonstrates that RL fine-tuning is key to reliable humanoid loco-manipulation. https://refine-dp.github.io/REFINE-DP/
Abstract（参考訳）: ヒューマノイド・ロコ・マニピュレーションは、複雑なロボット環境力学と長距離作業の下で、安定した、低レベルのボディ実行を伴う調整された高レベルの運動計画を必要とする。モードプランナーがオフラインでトレーニングされた動作プランナは、低レベルのコントローラから切り離され、コマンドトラッキングの貧弱さ、分散シフトの複雑化、タスク障害につながる。デモデータのスケーリングの一般的なアプローチは、高次元ヒューマノイドシステムでは違法に高価である。この課題に対処するために,DP高レベルプランナとRL低レベルロコマニピュレーションコントローラを協調的に最適化する階層型フレームワークであるREFINE-DPを提案する。 DPは、PPOベースの拡散ポリシー勾配を介して微調整され、タスク成功率を向上させるとともに、コントローラを同時に更新し、プランナーの進化するコマンド分布を正確に追跡し、動き品質を低下させる分布ミスマッチを低減する。ドアトラバーサル・ロングホライゾン・オブジェクト・トランスポートを含むロコ操作作業を行うヒューマノイドロボット上でREFINE-DPを検証する。 REFINE-DPは、事前訓練されたデータに見られないアウト・オブ・ディストリビューション・ケースであっても、シミュレーションにおいて90\%以上の成功率を実現し、現実の動的環境でスムーズな自律タスク実行を可能にする。提案手法は事前学習されたDPベースラインを大幅に上回り,RLファインチューニングが信頼性の高いヒューマノイドロコ操作の鍵であることを実証する。 https://refine-dp.github.io/REFINE-DP/

関連論文リスト

Closed-Loop Action Chunks with Dynamic Corrections for Training-Free Diffusion Policy [52.106797722292896]
我々は,チャンクベースのアクション生成とリアルタイム修正を統合した動的クローズドループ拡散ポリシーフレームワークDCDPを提案する。動的PushTシミュレーションでは、DCDPは5%の計算しか必要とせず、再トレーニングなしに適応性を19%改善する。
論文参考訳（メタデータ） (2026-03-02T15:04:18Z)
DDP-WM: Disentangled Dynamics Prediction for Efficient World Models [79.53092337527382]
本稿では,DDP-WMについて紹介する。DDP-WMはDDP-WM(Distangled Dynamics Prediction)の原理に基づく新しい世界モデルである。 DDP-WMは、効率的な履歴処理と動的ローカライゼーションを統合したアーキテクチャにより、この分解を実現する。実験により、DDP-WMは様々なタスクにおいて、大幅な効率と性能を達成することが示された。
論文参考訳（メタデータ） (2026-02-02T08:04:25Z)
Push Smarter, Not Harder: Hierarchical RL-Diffusion Policy for Efficient Nonprehensile Manipulation [8.7216199131049]
HeRDは階層的な強化学習拡散政策であり、プッシュタスクを高レベルの目標選択と低レベルの軌道生成という2つのレベルに分解する。我々は、中間空間目標を選択するための高レベル強化学習エージェントと、それに到達するための実用的で効率的な軌道を生成するための低レベル目標条件拡散モデルを用いる。この結果から,階層的制御を低レベル計画に組み込むことが,スケーラブルで目標指向の非包括的操作において有望な方向であることが示唆された。
論文参考訳（メタデータ） (2025-12-10T21:40:22Z)
Learning-based Cooperative Robotic Paper Wrapping: A Unified Control Policy with Residual Force Control [11.21445976755808]
本稿では,大規模言語モデルを用いた高レベルタスクプランナと,低レベルのハイブリッド模倣学習と強化学習ポリシを統合した学習ベースフレームワークを提案する。中心となるのは、人間のデモンストレーションから統一されたポリシーを学ぶサブタスク認識ロボットトランスフォーマー(START)である。統一型トランスフォーマーベースのポリシーは、特殊なモデルの必要性を減らし、制御された人間の監督を可能にし、変形可能なオブジェクト操作に必要なきめ細かい力制御によって、高レベルの意図を効果的に橋渡しすることを示す。
論文参考訳（メタデータ） (2025-11-05T04:55:35Z)
One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。 OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文参考訳（メタデータ） (2024-10-28T17:54:31Z)
Latent Weight Diffusion: Generating reactive policies instead of trajectories [12.270795590154489]
ロボット作業のクローズドループポリシを生成するために,Latent Weight Diffusionを提案する。 LWDは、作用地平線が長い場合、拡散政策よりも成功率が高い。 LWDはDPに匹敵するマルチタスク性能を達成し、推論時間FLOPSの1/45しか必要としない。
論文参考訳（メタデータ） (2024-10-17T21:30:29Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Learning to Simulate Self-Driven Particles System with Coordinated Policy Optimization [36.113662645486755]
自己駆動粒子 (Self-Driven Particles, SDP) は、鳥類の群れや交通の流れなど、日常生活に共通するマルチエージェントシステムのカテゴリである。従来のマルチエージェント強化学習(MARL)メソッドは、手前にチームメイトや敵となるエージェントを定義する。本研究では,社会心理学の原則を取り入れた協調政策最適化(CoPO)と呼ばれる新しいMARL手法を開発し,SDPの神経制御を学習する。
論文参考訳（メタデータ） (2021-10-26T16:20:23Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。