論文の概要: Human-assisted Robotic Policy Refinement via Action Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.07127v3
- Date: Thu, 30 Oct 2025 04:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.347459
- Title: Human-assisted Robotic Policy Refinement via Action Preference Optimization
- Title(参考訳): 行動選好最適化による人間支援型ロボット政策リファインメント
- Authors: Wenke Xia, Yichu Yang, Hongtao Wu, Xiao Ma, Tao Kong, Di Hu,
- Abstract要約: 行動選好最適化(Action Preference Optimization、APO)は、視覚・言語・行動モデル(VLA)を人間の操作による選好アライメントによって洗練する手法である。
これを解決するために、APOは相互作用から導出される二元的望ましくない信号を用いた適応的再重み付けアルゴリズムを提案する。
シミュレーションと実世界のシナリオで行われた実験は、より優れた一般化とロバスト性を示す。
- 参考スコア(独自算出の注目度): 26.144183856600687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing a reliable and iteratively refined robotic system is essential for deploying real-world applications. While Vision-Language-Action (VLA) models are widely recognized as the foundation model for such robotic deployment, their reliance on offline expert demonstrations critically limits their capacity for post-deployment refinement. To mitigate this limitation, we introduce Action Preference Optimization (APO), a method designed to refine VLA models by human-assisted preference alignment gathered through interaction with environments. This method begins with a human-robot collaboration framework for reliable failure correction and interaction trajectory collection through human intervention. However, directly leveraging these interaction trajectories for preference optimization is non-trivial due to the challenges of irreversible robotic actions and token distribution mismatch. To solve this, APO proposes an adaptive reweighting algorithm with binary desirability signals derived from interaction, empowering VLA models effectively suppress failure-prone actions while enhancing corrective action adaptation. Ultimately, APO equips VLA models with the crucial capability to learn from failure, paving the way for their iterative refinement and reliable deployment in dynamic environments. The experiments conducted in simulation and real-world scenarios prove superior generalization and robustness of our human-assisted framework across a variety of manipulation tasks. We believe this work could bring insights for efficient and stable optimization of VLA models through human-robot collaboration. The code and dataset are released at https://github.com/GeWu-Lab/Action-Preference-Optimization
- Abstract(参考訳): 現実のアプリケーションをデプロイするためには、信頼性と反復的に改良されたロボットシステムを確立することが不可欠である。
Vision-Language-Action(VLA)モデルは、そのようなロボット展開の基礎モデルとして広く認識されているが、オフラインの専門家によるデモへの依存は、デプロイ後の改善の能力を著しく制限している。
この制限を緩和するために,環境との相互作用によって収集された人間による嗜好アライメントによってVLAモデルを洗練させる手法である行動選好最適化(APO)を導入する。
この手法は、人間の介入による信頼性のある故障訂正と相互作用軌跡収集のための人間とロボットの協調フレームワークから始まる。
しかしながら、これらの相互作用軌跡を直接利用して好みの最適化を行うのは、可逆的なロボット動作とトークン分布ミスマッチの難しさのため、簡単ではない。
これを解決するために、APOは相互作用から導かれる二元的望ましくない信号を持つ適応的再重み付けアルゴリズムを提案する。
最終的に、APOはVLAモデルに障害から学ぶ重要な能力を備え、反復的な改善と動的環境への信頼性の高いデプロイメントの道を開いた。
シミュレーションおよび実世界のシナリオで実施した実験は、様々な操作タスクにおいて、人間支援フレームワークのより優れた一般化と堅牢性を示す。
この作業は、人間とロボットのコラボレーションを通じて、VLAモデルの効率的で安定した最適化の洞察をもたらすだろうと考えています。
コードとデータセットはhttps://github.com/GeWu-Lab/Action-Preference-Optimizationで公開されている。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment [42.41408547627677]
EvolvingGraspは、優先アライメントによる把握性能を継続的に向上する進化的グリップ生成法である。
EvolvingGraspは, シミュレーションと実シナリオの両方において, 進化的把握生成, 堅牢で, 物理的に実現可能で, 嗜好に整合した把握を可能にする。
論文 参考訳(メタデータ) (2025-03-18T15:01:47Z) - On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。
OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-20T02:23:09Z) - Self-Consistent Model-based Adaptation for Visual Reinforcement Learning [27.701421196547674]
視覚強化学習エージェントは、視覚障害による実世界のアプリケーションの性能低下に直面している。
既存の方法は、手作りの拡張でポリシーの表現を微調整することに依存している。
本稿では、ポリシーを変更することなくロバスト適応を促進する新しい手法である自己一貫性モデルベース適応(SCMA)を提案する。
論文 参考訳(メタデータ) (2025-02-14T05:23:56Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。