論文の概要: Learning from Observation: A Survey of Recent Advances
- arxiv url: http://arxiv.org/abs/2509.19379v1
- Date: Sat, 20 Sep 2025 05:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.53007
- Title: Learning from Observation: A Survey of Recent Advances
- Title(参考訳): 観察から学ぶ:最近の進歩
- Authors: Returaj Burnwal, Hriday Mehta, Nirav Pravinbhai Bhatt, Balaraman Ravindran,
- Abstract要約: シミュレーション学習(IL)アルゴリズムは、報酬関数を必要としない専門家の振る舞いを模倣する。
観察から学ぶという概念(LfO)や状態のみの模倣学習(SOIL)が近年注目を集めている。
提案するLfOのフレームワークを用いて,既存のLfO手法を軌道構築,仮定,アルゴリズムの設計選択の観点から調査・分類する。
- 参考スコア(独自算出の注目度): 5.056582586833467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation Learning (IL) algorithms offer an efficient way to train an agent by mimicking an expert's behavior without requiring a reward function. IL algorithms often necessitate access to state and action information from expert demonstrations. Although expert actions can provide detailed guidance, requiring such action information may prove impractical for real-world applications where expert actions are difficult to obtain. To address this limitation, the concept of learning from observation (LfO) or state-only imitation learning (SOIL) has recently gained attention, wherein the imitator only has access to expert state visitation information. In this paper, we present a framework for LfO and use it to survey and classify existing LfO methods in terms of their trajectory construction, assumptions and algorithm's design choices. This survey also draws connections between several related fields like offline RL, model-based RL and hierarchical RL. Finally, we use our framework to identify open problems and suggest future research directions.
- Abstract(参考訳): イミテーションラーニング(IL)アルゴリズムは、報酬関数を必要とせず、専門家の行動を模倣してエージェントを訓練する効率的な方法を提供する。
ILアルゴリズムは、しばしば専門家によるデモンストレーションから状態情報や行動情報へのアクセスを必要とする。
専門家の行動は詳細なガイダンスを提供することができるが、そのような行動情報を必要とすることは、専門家の行動を得るのが難しい現実のアプリケーションでは不可能である。
この制限に対処するために、観察からの学習(LfO)や状態のみの模倣学習(SOIL)の概念が近年注目されており、模倣者は専門家の訪問情報のみにアクセスすることができる。
本稿では,LfOのためのフレームワークを提案し,既存のLfOメソッドの軌道構築,仮定,アルゴリズムの設計選択の観点から,その手法を調査・分類する。
このサーベイはまた、オフラインのRL、モデルベースのRL、階層的なRLのようないくつかの関連フィールド間の接続も引き起こしている。
最後に、我々のフレームワークを用いて、オープンな問題を特定し、今後の研究方向性を提案する。
関連論文リスト
- R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Imitation Learning from Observation through Optimal Transport [25.398983671932154]
イミテーション・ラーニング・オブ・オブ・オブ・オブ・観察(ILfO)は、学習者が専門家の行動を模倣しようとする環境である。
学習モデルや逆学習を必要とせずに、既存の手法を単純化して報酬関数を生成することができることを示す。
我々は,このシンプルな手法が様々な連続制御タスクに対して有効であることを示し,IlfO設定の技法の状態を超越していることを見出した。
論文 参考訳(メタデータ) (2023-10-02T20:53:20Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges [51.699348215510575]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - Redefining Counterfactual Explanations for Reinforcement Learning:
Overview, Challenges and Opportunities [2.0341936392563063]
AIのほとんどの説明方法は、開発者とエキスパートユーザーに焦点を当てている。
ブラックボックスモデルの出力が変更されるための入力で何が変更されるのかについて、カウンターファクトな説明がユーザにアドバイスします。
カウンターファクトはユーザフレンドリで、AIシステムから望ましいアウトプットを達成するための実行可能なアドバイスを提供する。
論文 参考訳(メタデータ) (2022-10-21T09:50:53Z) - Explore, Discover and Learn: Unsupervised Discovery of State-Covering
Skills [155.11646755470582]
情報理論的スキル発見の代替手法として,'Explore, Discover and Learn'(EDL)がある。
本稿では,EDLがカバレッジ問題を克服し,学習スキルの初期状態への依存を減らし,ユーザが学習すべき行動について事前定義できるようにするなど,大きなメリットがあることを示す。
論文 参考訳(メタデータ) (2020-02-10T10:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。