論文の概要: Value from Observations: Towards Large-Scale Imitation Learning via Self-Improvement
- arxiv url: http://arxiv.org/abs/2507.06701v1
- Date: Wed, 09 Jul 2025 09:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.542434
- Title: Value from Observations: Towards Large-Scale Imitation Learning via Self-Improvement
- Title(参考訳): 観察からの価値:自己改善による大規模な模倣学習を目指して
- Authors: Michael Bloesch, Markus Wulfmeier, Philemon Brakel, Todor Davchev, Martina Zambelli, Jost Tobias Springenberg, Abbas Abdolmaleki, William F Whitney, Nicolas Heess, Roland Hafner, Martin Riedmiller,
- Abstract要約: Imitation Learning from Observation (IfO)は、大規模に振る舞いを学ぶ強力な方法を提供する。
本稿では,主にバイモーダル品質のデータ分布を用いた理想的なシナリオについて検討し,そのようなデータから学習する方法を提案する。
提案手法は,専門家データと非専門家データ間の情報伝達に値関数を用いて,アクションフリーな実演にRLに基づく模倣学習を適用した。
- 参考スコア(独自算出の注目度): 19.883973457999282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation Learning from Observation (IfO) offers a powerful way to learn behaviors at large-scale: Unlike behavior cloning or offline reinforcement learning, IfO can leverage action-free demonstrations and thus circumvents the need for costly action-labeled demonstrations or reward functions. However, current IfO research focuses on idealized scenarios with mostly bimodal-quality data distributions, restricting the meaningfulness of the results. In contrast, this paper investigates more nuanced distributions and introduces a method to learn from such data, moving closer to a paradigm in which imitation learning can be performed iteratively via self-improvement. Our method adapts RL-based imitation learning to action-free demonstrations, using a value function to transfer information between expert and non-expert data. Through comprehensive evaluation, we delineate the relation between different data distributions and the applicability of algorithms and highlight the limitations of established methods. Our findings provide valuable insights for developing more robust and practical IfO techniques on a path to scalable behaviour learning.
- Abstract(参考訳): IfO(Imitation Learning from Observation)は、行動クローンやオフラインの強化学習とは異なり、アクションフリーなデモンストレーションを活用することができ、コストのかかるアクションラベルによるデモや報酬関数の必要性を回避することができる。
しかし、現在のifO研究は、主にバイモーダルなデータ分布を持つ理想的なシナリオに焦点を当てており、結果の意味を制限している。
対照的に,本研究では,より微妙な分布を調査し,そのようなデータから学習する方法を導入し,自己改善を通じて模倣学習を反復的に行うパラダイムに近づいた。
提案手法は,専門家データと非専門家データ間の情報伝達に値関数を用いて,アクションフリーな実演にRLに基づく模倣学習を適用した。
包括的評価を通じて,異なるデータ分布とアルゴリズムの適用性との関係を整理し,確立された手法の限界を強調する。
本研究は,スケーラブルな行動学習への道筋をたどって,より堅牢で実用的なifO技術を開発する上で,貴重な知見を提供する。
関連論文リスト
- Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Variational Self-Supervised Contrastive Learning Using Beta Divergence [0.0]
本稿では,データノイズに対して頑健な自己教師付き学習手法を提案する。
顔理解領域における多ラベルデータセットを用いた線形評価と微調整シナリオを含む厳密な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-09-05T17:21:38Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。