論文の概要: Real-world Reinforcement Learning from Suboptimal Interventions
- arxiv url: http://arxiv.org/abs/2512.24288v1
- Date: Tue, 30 Dec 2025 15:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.574033
- Title: Real-world Reinforcement Learning from Suboptimal Interventions
- Title(参考訳): 準最適介入による実世界の強化学習
- Authors: Yinuo Zhao, Huiqian Jin, Lechun Jiang, Xinyi Zhang, Kun Wu, Pei Ren, Zhiyuan Xu, Zhengping Che, Lei Sun, Dapeng Wu, Chi Harold Liu, Jian Tang,
- Abstract要約: SiLRI (SiLRI) は、現実のロボット操作タスクのための州立ラグランジアン強化学習アルゴリズムである。
我々のアルゴリズムは,人間間遠隔操作システムに基づいて,多様な操作タスクに関する実世界の実験を通じて評価される。
- 参考スコア(独自算出の注目度): 39.23110010675281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world reinforcement learning (RL) offers a promising approach to training precise and dexterous robotic manipulation policies in an online manner, enabling robots to learn from their own experience while gradually reducing human labor. However, prior real-world RL methods often assume that human interventions are optimal across the entire state space, overlooking the fact that even expert operators cannot consistently provide optimal actions in all states or completely avoid mistakes. Indiscriminately mixing intervention data with robot-collected data inherits the sample inefficiency of RL, while purely imitating intervention data can ultimately degrade the final performance achievable by RL. The question of how to leverage potentially suboptimal and noisy human interventions to accelerate learning without being constrained by them thus remains open. To address this challenge, we propose SiLRI, a state-wise Lagrangian reinforcement learning algorithm for real-world robot manipulation tasks. Specifically, we formulate the online manipulation problem as a constrained RL optimization, where the constraint bound at each state is determined by the uncertainty of human interventions. We then introduce a state-wise Lagrange multiplier and solve the problem via a min-max optimization, jointly optimizing the policy and the Lagrange multiplier to reach a saddle point. Built upon a human-as-copilot teleoperation system, our algorithm is evaluated through real-world experiments on diverse manipulation tasks. Experimental results show that SiLRI effectively exploits human suboptimal interventions, reducing the time required to reach a 90% success rate by at least 50% compared with the state-of-the-art RL method HIL-SERL, and achieving a 100% success rate on long-horizon manipulation tasks where other RL methods struggle to succeed. Project website: https://silri-rl.github.io/.
- Abstract(参考訳): 実世界の強化学習(RL)は、正確で巧妙なロボット操作ポリシーをオンラインでトレーニングするための有望なアプローチを提供する。
しかしながら、以前の現実世界のRL法は、人間の介入が状態空間全体にわたって最適であると仮定することが多く、専門家のオペレータでさえ、全ての状態において常に最適なアクションを提供できない、あるいは完全にミスを避けることができないという事実を見落としている。
ロボットが収集したデータと無差別に介入データを混合することは、RLのサンプル非効率性を継承するが、純粋に介入データを模倣することは、最終的にRLが達成可能な最終性能を低下させる。
潜在的に最適でノイズの多い人間の介入をいかに活用して学習を加速させるかという問題は未解決のままである。
この課題に対処するために、実世界のロボット操作タスクのための州立ラグランジアン強化学習アルゴリズムSiLRIを提案する。
具体的には、制約付きRL最適化としてオンライン操作問題を定式化し、各状態の制約は人間の介入の不確実性によって決定される。
次に、状態ワイドなラグランジュ乗算器を導入し、min-max最適化により問題を解き、ポリシーとラグランジュ乗算器を共同最適化してサドル点に達する。
我々のアルゴリズムは,人間間遠隔操作システムに基づいて,多様な操作タスクに関する実世界の実験を通じて評価される。
実験の結果,SiLRIはヒトの至適介入を効果的に活用し,最先端のRL法であるHIL-SERLと比較して90%以上の成功率を達成するのに必要な時間を少なくとも50%削減し,他のRL法が成功に苦しむ長期操作タスクにおいて100%の成功率を達成することができた。
プロジェクトウェブサイト:https://silri-rl.github.io/.com
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Real World Offline Reinforcement Learning with Realistic Data Source [33.7474988142367]
オフライン強化学習(ORL)は、任意の事前生成経験から学習する能力があるため、ロボット学習に非常に有望である。
現在のORLベンチマークは、ほぼ完全にシミュレーションされており、オンラインRLエージェントのリプレイバッファや、サブ最適トラジェクトリのような、探索されたデータセットを使用している。
本研究(Real-ORL)では、密接に関連するタスクの安全な操作から収集されたデータは、現実のロボット学習のためのより実用的なデータソースであると仮定する。
論文 参考訳(メタデータ) (2022-10-12T17:57:05Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。