論文の概要: Using Non-Expert Data to Robustify Imitation Learning via Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.19495v2
- Date: Sat, 25 Oct 2025 01:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.611904
- Title: Using Non-Expert Data to Robustify Imitation Learning via Offline Reinforcement Learning
- Title(参考訳): 非専門データを用いたオフライン強化学習による模倣学習のロバスト化
- Authors: Kevin Huang, Rosario Scalise, Cleah Winston, Ayush Agrawal, Yunchu Zhang, Rohan Baijal, Markus Grotz, Byron Boots, Benjamin Burchfiel, Masha Itkina, Paarth Shah, Abhishek Gupta,
- Abstract要約: オフライン強化学習は、非専門的なデータを利用して模倣学習ポリシーの性能を向上させることができることを示す。
提案手法は, オフラインRLにより拡張された模倣アルゴリズムにより, タスクを頑健に解決できることを示す。
- 参考スコア(独自算出の注目度): 21.705096559151286
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Imitation learning has proven effective for training robots to perform complex tasks from expert human demonstrations. However, it remains limited by its reliance on high-quality, task-specific data, restricting adaptability to the diverse range of real-world object configurations and scenarios. In contrast, non-expert data -- such as play data, suboptimal demonstrations, partial task completions, or rollouts from suboptimal policies -- can offer broader coverage and lower collection costs. However, conventional imitation learning approaches fail to utilize this data effectively. To address these challenges, we posit that with right design decisions, offline reinforcement learning can be used as a tool to harness non-expert data to enhance the performance of imitation learning policies. We show that while standard offline RL approaches can be ineffective at actually leveraging non-expert data under the sparse data coverage settings typically encountered in the real world, simple algorithmic modifications can allow for the utilization of this data, without significant additional assumptions. Our approach shows that broadening the support of the policy distribution can allow imitation algorithms augmented by offline RL to solve tasks robustly, showing considerably enhanced recovery and generalization behavior. In manipulation tasks, these innovations significantly increase the range of initial conditions where learned policies are successful when non-expert data is incorporated. Moreover, we show that these methods are able to leverage all collected data, including partial or suboptimal demonstrations, to bolster task-directed policy performance. This underscores the importance of algorithmic techniques for using non-expert data for robust policy learning in robotics. Website: https://uwrobotlearning.github.io/RISE-offline/
- Abstract(参考訳): シミュレーション学習は、熟練した人間のデモンストレーションから複雑なタスクをロボットに訓練するのに有効であることが証明されている。
しかし、高品質でタスク固有のデータに依存しているため、さまざまな現実世界のオブジェクト構成やシナリオへの適応性を制限している。
対照的に、プレイデータ、準最適デモ、部分的タスク完了、準最適ポリシーからのロールアウトなど、非専門家のデータは、より広範なカバレッジを提供し、コレクションコストを低減します。
しかし、従来の模倣学習手法では、このデータを効果的に利用できない。
これらの課題に対処するため、我々は、適切な設計判断をすることで、オフライン強化学習を、非専門的なデータを活用して模倣学習ポリシーの性能を高めるツールとして利用できると仮定する。
通常のオフラインRLアプローチは、通常、現実世界で発生するスパースなデータカバレッジ設定の下で、実際に非専門的なデータを活用するには効果がないが、単純なアルゴリズムによる修正により、追加の仮定を伴わずに、このデータを利用することが可能になる。
提案手法は, オフラインRLにより拡張された模倣アルゴリズムにより, タスクを堅牢に解くことができ, 回復と一般化の挙動が著しく向上していることを示す。
操作タスクにおいて、これらの革新は、非専門的なデータが組み込まれた場合、学習されたポリシーが成功する初期条件の範囲を大幅に増加させる。
さらに,これらの手法は,タスク指向の政策性能を高めるために,部分的あるいは準最適の実証を含むすべての収集データを活用可能であることを示す。
このことは、ロボット工学におけるロバストなポリシー学習のために、非専門家データを使用するアルゴリズム技術の重要性を浮き彫りにしている。
ウェブサイト:https://uwrobotlearning.github.io/RISE-offline/
関連論文リスト
- STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。
本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:54:06Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
ラベルなしのオフライン軌道データは、効率的な探索戦略を学ぶために利用することができる。
提案手法は,42の長軸,スパース・リワードタスクからなるスイートにおいて,従来戦略よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Flow to Control: Offline Reinforcement Learning with Lossless Primitive
Discovery [31.49638957903016]
オフライン強化学習(RL)により、エージェントはログデータから効果的に学習することができる。
提案手法はポリシーの表現能力に優れ,多くのタスクにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-12-02T11:35:51Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。