論文の概要: Preference-Calibrated Human-in-the-Loop Reinforcement Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.03949v1
- Date: Tue, 02 Jun 2026 17:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.223781
- Title: Preference-Calibrated Human-in-the-Loop Reinforcement Learning for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのためのロボット強化学習
- Authors: Zeyi Liu, Guangyao Liu, Yinuo Qu, Yuquan Xue, Bofang Jia, Chunhua Yang, Weihua Gui, Keke Huang, Ziwei Wang,
- Abstract要約: PACT(Preference-calibrated Actor-Critic Training framework)を提案する。
まず、人間の実演から学習し、信用補正のための最適部分を特定するプログレスモデルを設計する。
次に、選好ペアを構築して、同定された準最適セグメントのベルマン目標をペナルティ化する反ファクト的優位性を定義する。
- 参考スコア(独自算出の注目度): 40.17737666526493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-in-the-loop reinforcement learning (HIL-RL) improves sample efficiency in real-robot manipulation through online human intervention. However, successful trajectories may include suboptimal actions that deviate from the desired task-execution path and force human intervention. Existing HIL-RL methods typically apply the consistent credit assignment principle to all transitions, uniformly propagating discounted terminal rewards through suboptimal segments, ignoring the actual contribution of each transition to task success. This overestimates Q-values for critic learning and indirectly misguides actor updates toward suboptimal behavior patterns. To this end, we propose PACT, a Preference-calibrated Actor-Critic Training framework that leverages the implicit preference signals induced by intervention to perform credit reassignment on identified suboptimal segments while directly guiding policy training for unbiased critic-actor learning. Specifically, we first design a progress model that learns from human demonstration and identifies suboptimal segments for credit correction. Then, from the human action and resampled policy action at the intervention state, we build preference pairs to define a counterfactual advantage that penalizes Bellman targets of the identified suboptimal segment, enabling directional credit calibration. Moreover, we directly align the policy with human corrective actions in the bounded mean space, providing an additional signal beyond critic-guided updates. Across five real-robot manipulation tasks, PACT improves the average success rate by 24.5% and achieves 1.3 times faster convergence, thereby improving both RL sample efficiency and performance. Code is available at https://anonymous.4open.science/r/HILRL-A1X-BC05.
- Abstract(参考訳): HIL-RL(Human-in-the-loop reinforcement learning)は、リアルタイムロボット操作におけるサンプル効率を改善する。
しかし、成功した軌道には、望ましいタスク実行経路から逸脱し、人間の介入を強制する最適な行動が含まれるかもしれない。
既存のHIL-RL法は、通常、全ての遷移に一貫した信用割当原則を適用し、各遷移がタスク成功に実際に貢献することを無視し、最適部分を通して割引された端末報酬を均一に伝播する。
これにより、批判的学習のQ値が過大評価され、アクター更新を最適下行動パターンに間接的に誤認する。
そこで本稿では,アクター・アクター・アクター・トレーニング・フレームワークであるPACTを提案する。このフレームワークは,アクター・アクター・ラーニングのためのポリシートレーニングを直接指導しながら,特定のサブ最適セグメントに対するクレジット再割り当てを行うために介入によって誘導される暗黙の選好信号を活用する。
具体的には、まず、人間の実演から学習し、信用補正のための最適部分を特定するプログレスモデルを設計する。
そして、介入状態における人的行動と再サンプリングされた政策行動から、特定された準最適セグメントのベルマン目標をペナルティ化し、指向性クレジットキャリブレーションを可能にする対物的優位性を定義するための選好ペアを構築する。
さらに、我々は、ポリシーを有界平均空間における人間の是正行動と直接整合させ、批評家が指導した更新以上の信号を提供する。
5つの実ロボット操作タスクの中で、PACTは平均成功率を24.5%改善し、1.3倍の収束を実現し、RLサンプル効率と性能を改善した。
コードはhttps://anonymous.4open.science/r/HILRL-A1X-BC05で公開されている。
関連論文リスト
- LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning [22.17044827069627]
安定なアクターによって生成される高価値なアクションに置き換える,プラグアンドプレイのトレーニングサンプル置換器を提案する。
実験の結果、PARはパフォーマンスを継続的に改善し、基礎的なTD3+BCと組み合わせることで最先端にアプローチすることがわかった。
論文 参考訳(メタデータ) (2026-02-07T08:44:27Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning [47.57615889991631]
連続行動空間の場合、アクター批判法はオンライン強化学習(RL)において広く用いられている。
本研究では,ベルマン最適度演算子をアクター批判フレームワークに組み込むことの有効性を検討した。
論文 参考訳(メタデータ) (2025-06-06T10:46:20Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。
様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文 参考訳(メタデータ) (2024-10-08T08:04:09Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。