論文の概要: Optimism is All You Need: Model-Based Imitation Learning From
Observation Alone
- arxiv url: http://arxiv.org/abs/2102.10769v1
- Date: Mon, 22 Feb 2021 04:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:15:13.269092
- Title: Optimism is All You Need: Model-Based Imitation Learning From
Observation Alone
- Title(参考訳): 楽観主義は必要なものすべて:観察からモデルに基づく模倣を学ぶ
- Authors: Rahul Kidambi, Jonathan Chang, Wen Sun
- Abstract要約: 本稿では,観察者のみからの模倣学習(ilfo)を,専門家が遭遇した状態のみからなる専門家のデモンストレーションで提示する。
ILFO問題の解決に有効なモデルベースフレームワークであるMobILEを提案する。
- 参考スコア(独自算出の注目度): 14.85515032374775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies Imitation Learning from Observations alone (ILFO) where
the learner is presented with expert demonstrations that only consist of states
encountered by an expert (without access to actions taken by the expert). We
present a provably efficient model-based framework MobILE to solve the ILFO
problem. MobILE involves carefully trading off exploration against imitation -
this is achieved by integrating the idea of optimism in the face of uncertainty
into the distribution matching imitation learning (IL) framework. We provide a
unified analysis for MobILE, and demonstrate that MobILE enjoys strong
performance guarantees for classes of MDP dynamics that satisfy certain well
studied notions of complexity. We also show that the ILFO problem is strictly
harder than the standard IL problem by reducing ILFO to a multi-armed bandit
problem indicating that exploration is necessary for ILFO. We complement these
theoretical results with experimental simulations on benchmark OpenAI Gym tasks
that indicate the efficacy of MobILE.
- Abstract(参考訳): 本論文は、専門家が遭遇した状態(専門家の行動にアクセスせずに)のみからなる専門家によるデモンストレーションを行うILFO(Imitation Learning from Observations)について研究する。
ILFO問題の解決に有効なモデルベースフレームワークであるMobILEを提案する。
これは、不確実性に直面した楽観主義のアイデアを、分布マッチング模倣学習(distribution matching imitation learning, il)フレームワークに統合することによって達成される。
我々は MobILE の統一解析を行い、MobILE がある種のよく研究された複雑性の概念を満たす MDP 力学のクラスに対して強い性能保証を享受していることを示す。
また,ILFOの探索が必須であることを示すマルチアームバンディット問題に対するILFOの低減により,ILFOの問題は標準的なIL問題よりも厳しくなることを示す。
我々はこれらの理論結果を,MobILEの有効性を示すベンチマークOpenAI Gymタスクの実験シミュレーションで補完する。
関連論文リスト
- On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Reinforced Imitation Learning by Free Energy Principle [2.9327503320877457]
強化学習(Reinforcement Learning, RL)は、特にスパース・リワード・セッティングにおいて、大量の探索を必要とする。
イミテーション・ラーニング(IL)は、専門家によるデモンストレーションから探究なしで学ぶことができる。
自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する
論文 参考訳(メタデータ) (2021-07-25T14:19:29Z) - MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。
我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。
このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。