論文の概要: IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.10442v1
- Date: Thu, 15 May 2025 16:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.399818
- Title: IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning
- Title(参考訳): IN-RIL:政策ファインチューニングのためのインターリーブ強化と模倣学習
- Authors: Dechen Gao, Hang Wang, Hanchu Zhou, Nejib Ammar, Shatadal Mishra, Ahmadreza Moradipari, Iman Soltani, Junshan Zhang,
- Abstract要約: イミテーションラーニング(IL)と強化ラーニング(RL)はそれぞれ、ロボットポリシーラーニングに明確なアドバンテージを提供する。
IL-based pre-training と RL-based fine-tuning を用いた既存のロボット学習アプローチは有望であるが、この2段階学習パラダイムは、RL 微細チューニングフェーズの不安定性とサンプル効率の低下に悩まされることが多い。
本研究では,政策微調整のためのIN-RIL,INterleaved Reinforcement Learning and Imitation Learningを紹介する。
- 参考スコア(独自算出の注目度): 25.642307880136332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning (IL) and reinforcement learning (RL) each offer distinct advantages for robotics policy learning: IL provides stable learning from demonstrations, and RL promotes generalization through exploration. While existing robot learning approaches using IL-based pre-training followed by RL-based fine-tuning are promising, this two-step learning paradigm often suffers from instability and poor sample efficiency during the RL fine-tuning phase. In this work, we introduce IN-RIL, INterleaved Reinforcement learning and Imitation Learning, for policy fine-tuning, which periodically injects IL updates after multiple RL updates and hence can benefit from the stability of IL and the guidance of expert data for more efficient exploration throughout the entire fine-tuning process. Since IL and RL involve different optimization objectives, we develop gradient separation mechanisms to prevent destructive interference during \ABBR fine-tuning, by separating possibly conflicting gradient updates in orthogonal subspaces. Furthermore, we conduct rigorous analysis, and our findings shed light on why interleaving IL with RL stabilizes learning and improves sample-efficiency. Extensive experiments on 14 robot manipulation and locomotion tasks across 3 benchmarks, including FurnitureBench, OpenAI Gym, and Robomimic, demonstrate that \ABBR can significantly improve sample efficiency and mitigate performance collapse during online finetuning in both long- and short-horizon tasks with either sparse or dense rewards. IN-RIL, as a general plug-in compatible with various state-of-the-art RL algorithms, can significantly improve RL fine-tuning, e.g., from 12\% to 88\% with 6.3x improvement in the success rate on Robomimic Transport. Project page: https://github.com/ucd-dare/IN-RIL.
- Abstract(参考訳): シミュレーション学習 (IL) と強化学習 (RL) はそれぞれ、ロボットポリシー学習において明確な利点を提供している: ILはデモから安定した学習を提供し、RLは探索を通じて一般化を促進する。
IL-based pre-training と RL-based fine-tuning を用いた既存のロボット学習手法は有望であるが、この2段階学習パラダイムは、RL 微細チューニングフェーズにおいて不安定性とサンプル効率の低下に悩まされることが多い。
本稿では、複数のRL更新後に定期的にIL更新を注入する政策微調整のためのIN-RIL、INterleaved Reinforcement Learning and Imitation Learningを紹介する。
IL と RL は最適化目的が異なるため,直交部分空間において衝突する可能性のある勾配更新を分離することにより,ABBR 微調整時の破壊的干渉を防止する勾配分離機構を開発する。
さらに, 厳密な分析を行い, ILをRLでインターリービングすると学習が安定し, サンプル効率が向上する理由を明らかにした。
FurnitureBench氏、OpenAI Gym氏、Roomimic氏を含む3つのベンチマークにおける14のロボット操作と移動タスクに関する大規模な実験は、‘ABBR’がサンプル効率を著しく改善し、長軸および短軸の両方のタスクにおいて、スパースまたは高密度の報酬を持つオンラインファインタニングにおけるパフォーマンスの崩壊を軽減することを実証している。
IN-RILは、様々な最先端のRLアルゴリズムと互換性のある一般的なプラグインとして、ロブミミックトランスポートの成功率を6.3倍にすることで、RLの微調整(例えば、12\%から88\%)を大幅に改善することができる。
プロジェクトページ: https://github.com/ucd-dare/IN-RIL
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
勾配に基づく手法を用いて訓練された深層強化学習(RL)モデルでは、勾配の選択とその学習速度は優れた性能を達成するために不可欠である。
本稿では,学習中のエージェントのパフォーマンスに基づいて学習率を選択するメタ学習手法である深層強化学習(LRRL)の動的学習率を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Imitation Bootstrapped Reinforcement Learning [31.916571349600684]
模擬ブートストラップ強化学習(IBRL)はサンプル効率強化学習のための新しいフレームワークである。
IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。
論文 参考訳(メタデータ) (2023-11-03T19:03:20Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。