論文の概要: Robotic Policy Learning via Human-assisted Action Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.07127v2
- Date: Thu, 12 Jun 2025 11:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 13:18:14.145752
- Title: Robotic Policy Learning via Human-assisted Action Preference Optimization
- Title(参考訳): 人間支援行動選好最適化によるロボット政策学習
- Authors: Wenke Xia, Yichu Yang, Hongtao Wu, Xiao Ma, Tao Kong, Di Hu,
- Abstract要約: VLA(Vision-Language-Action)モデルは、そのようなロボット展開の基礎モデルとして広く認識されている。
本稿では,Human-Assisted Action Preference Optimization(HAPO)を提案する。
- 参考スコア(独自算出の注目度): 23.970142506006397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing a reliable and iteratively refined robotic system is essential for deploying real-world applications. While Vision-Language-Action (VLA) models are widely recognized as the foundation model for such robotic deployment, their dependence on expert demonstrations hinders the crucial capabilities of correction and learning from failures. To mitigate this limitation, we introduce a Human-assisted Action Preference Optimization method named HAPO, designed to correct deployment failures and foster effective adaptation through preference alignment for VLA models. This method begins with a human-robot collaboration framework for reliable failure correction and interaction trajectory collection through human intervention. These human-intervention trajectories are further employed within the action preference optimization process, facilitating VLA models to mitigate failure action occurrences while enhancing corrective action adaptation. Specifically, we propose an adaptive reweighting algorithm to address the issues of irreversible interactions and token probability mismatch when introducing preference optimization into VLA models, facilitating model learning from binary desirability signals derived from interactions. Through combining these modules, our human-assisted action preference optimization method ensures reliable deployment and effective learning from failure for VLA models. The experiments conducted in simulation and real-world scenarios prove superior generalization and robustness of our framework across a variety of manipulation tasks.
- Abstract(参考訳): 現実のアプリケーションをデプロイするためには、信頼性と反復的に改良されたロボットシステムを確立することが不可欠である。
Vision-Language-Action(VLA)モデルは、そのようなロボット展開の基礎モデルとして広く認識されているが、専門家によるデモンストレーションへの依存は、修正と失敗からの学習の重要な能力を妨げている。
この制限を緩和するため, HAPO(Human-Assisted Action Preference Optimization)という手法を導入する。
この手法は、人間の介入による信頼性のある故障訂正と相互作用軌跡収集のための人間とロボットの協調フレームワークから始まる。
これらのヒューマン・インターベンション・トラジェクトリは、アクション優先最適化プロセスにおいてさらに採用され、VLAモデルにより、障害アクションの発生を軽減し、補正アクション適応を向上する。
具体的には、VLAモデルに優先最適化を導入する際に、非可逆的相互作用とトークン確率ミスマッチの問題に対処する適応的再重み付けアルゴリズムを提案する。
これらのモジュールを組み合わせることで、人間による行動選好最適化手法により、VLAモデルの失敗からの信頼性の高いデプロイメントと効果的な学習が可能になる。
シミュレーションおよび実世界のシナリオで実施した実験は、様々な操作タスクにおいて、我々のフレームワークのより優れた一般化と堅牢性を示す。
関連論文リスト
- Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。
OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-20T02:23:09Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。