論文の概要: Failure-Aware RL: Reliable Offline-to-Online Reinforcement Learning with Self-Recovery for Real-World Manipulation
- arxiv url: http://arxiv.org/abs/2601.07821v1
- Date: Mon, 12 Jan 2026 18:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.783519
- Title: Failure-Aware RL: Reliable Offline-to-Online Reinforcement Learning with Self-Recovery for Real-World Manipulation
- Title(参考訳): フェール・アウェア RL: リアルタイムマニピュレーションのための自己回復型オフライン・オンライン強化学習
- Authors: Huanyu Li, Kun Lei, Sheng Zang, Kaizhe Hu, Yongyuan Liang, Bo An, Xiaoli Li, Huazhe Xu,
- Abstract要約: FARL(Failure-Aware Offline-to-Online Reinforcement Learning)は、実世界の強化学習における障害を最小限にする新しいパラダイムである。
本研究では,オンライン探索における障害防止のために,世界モデルに基づく安全評論家とオフラインで訓練された回復ポリシーを統合するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 48.26705293834693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training algorithms based on deep reinforcement learning can push the limits of robotic models for specific objectives, such as generalizability, accuracy, and robustness. However, Intervention-requiring Failures (IR Failures) (e.g., a robot spilling water or breaking fragile glass) during real-world exploration happen inevitably, hindering the practical deployment of such a paradigm. To tackle this, we introduce Failure-Aware Offline-to-Online Reinforcement Learning (FARL), a new paradigm minimizing failures during real-world reinforcement learning. We create FailureBench, a benchmark that incorporates common failure scenarios requiring human intervention, and propose an algorithm that integrates a world-model-based safety critic and a recovery policy trained offline to prevent failures during online exploration. Extensive simulation and real-world experiments demonstrate the effectiveness of FARL in significantly reducing IR Failures while improving performance and generalization during online reinforcement learning post-training. FARL reduces IR Failures by 73.1% while elevating performance by 11.3% on average during real-world RL post-training. Videos and code are available at https://failure-aware-rl.github.io.
- Abstract(参考訳): 深層強化学習に基づくポストトレーニングアルゴリズムは、汎用性、正確性、堅牢性など、特定の目的のためにロボットモデルの限界を押し上げることができる。
しかし、実世界の探査におけるインターベンション要求障害(例えば、ロボットが水をこぼしたり、壊れやすいガラスを壊したりする)は必然的に起こり、そのようなパラダイムの実践的な展開を妨げる。
そこで本研究では,FARL(Failure-Aware Offline-to-Online Reinforcement Learning)を導入した。
我々は、人間の介入を必要とする一般的な障害シナリオを組み込んだベンチマークであるFailureBenchを作成し、オンライン探索中の障害を防止するために、ワールドモデルベースの安全評論家とオフラインでトレーニングされた回復ポリシーを統合するアルゴリズムを提案する。
大規模シミュレーションと実世界の実験により、FARLがIR障害を大幅に低減し、オンライン強化学習後トレーニングのパフォーマンスと一般化を改善した。
FARLはIR故障を73.1%削減し、実世界のRL後トレーニングでは平均で11.3%向上した。
ビデオとコードはhttps://failure-aware-rl.github.io.comで公開されている。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Robustness Evaluation of Offline Reinforcement Learning for Robot Control Against Action Perturbations [4.849820402342814]
オフライン強化学習は特に ロボット制御の応用に有望です
ロボットの関節アクチュエータ障害のような現実世界の課題に対する堅牢性は、依然として重要な関心事である。
本研究は,OpenAI Gymの脚ロボットを用いた既存のオフライン強化学習手法のロバスト性を評価する。
論文 参考訳(メタデータ) (2024-12-25T05:02:22Z) - Augmenting Replay in World Models for Continual Reinforcement Learning [0.0]
連続RLは、エージェントが過去のタスクと将来のタスクの両方を改善しながら、以前のタスクを忘れずに新しいタスクを学ぶ必要がある。
最も一般的なアプローチは、モデルフリーのアルゴリズムとリプレイバッファを使って破滅的な忘れを軽減している。
WMAR(World Models with Augmented Replay)は,メモリ効率のよいリプレイバッファを持つモデルベースRLアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-30T00:48:26Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based
RL [4.014524824655106]
腕到達問題における閉ループ軌道生成のための視覚に基づく強化学習(RL)手法を提案する。
アームの軌道生成は、ロボットの体を動かすための衝突のない経路を見つけることを含む基本的なロボティクス問題です。
論文 参考訳(メタデータ) (2021-03-24T15:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。