論文の概要: Optimism is All You Need: Model-Based Imitation Learning From
Observation Alone
- arxiv url: http://arxiv.org/abs/2102.10769v1
- Date: Mon, 22 Feb 2021 04:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:15:13.269092
- Title: Optimism is All You Need: Model-Based Imitation Learning From
Observation Alone
- Title(参考訳): 楽観主義は必要なものすべて:観察からモデルに基づく模倣を学ぶ
- Authors: Rahul Kidambi, Jonathan Chang, Wen Sun
- Abstract要約: 本稿では,観察者のみからの模倣学習(ilfo)を,専門家が遭遇した状態のみからなる専門家のデモンストレーションで提示する。
ILFO問題の解決に有効なモデルベースフレームワークであるMobILEを提案する。
- 参考スコア(独自算出の注目度): 14.85515032374775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies Imitation Learning from Observations alone (ILFO) where
the learner is presented with expert demonstrations that only consist of states
encountered by an expert (without access to actions taken by the expert). We
present a provably efficient model-based framework MobILE to solve the ILFO
problem. MobILE involves carefully trading off exploration against imitation -
this is achieved by integrating the idea of optimism in the face of uncertainty
into the distribution matching imitation learning (IL) framework. We provide a
unified analysis for MobILE, and demonstrate that MobILE enjoys strong
performance guarantees for classes of MDP dynamics that satisfy certain well
studied notions of complexity. We also show that the ILFO problem is strictly
harder than the standard IL problem by reducing ILFO to a multi-armed bandit
problem indicating that exploration is necessary for ILFO. We complement these
theoretical results with experimental simulations on benchmark OpenAI Gym tasks
that indicate the efficacy of MobILE.
- Abstract(参考訳): 本論文は、専門家が遭遇した状態(専門家の行動にアクセスせずに)のみからなる専門家によるデモンストレーションを行うILFO(Imitation Learning from Observations)について研究する。
ILFO問題の解決に有効なモデルベースフレームワークであるMobILEを提案する。
これは、不確実性に直面した楽観主義のアイデアを、分布マッチング模倣学習(distribution matching imitation learning, il)フレームワークに統合することによって達成される。
我々は MobILE の統一解析を行い、MobILE がある種のよく研究された複雑性の概念を満たす MDP 力学のクラスに対して強い性能保証を享受していることを示す。
また,ILFOの探索が必須であることを示すマルチアームバンディット問題に対するILFOの低減により,ILFOの問題は標準的なIL問題よりも厳しくなることを示す。
我々はこれらの理論結果を,MobILEの有効性を示すベンチマークOpenAI Gymタスクの実験シミュレーションで補完する。
関連論文リスト
- Inverse Reinforcement Learning by Estimating Expertise of Demonstrators [18.50354748863624]
IRLEED(Inverse Reinforcement Learning by Estimating Expertise of Demonstrators)は、実証者の専門知識の事前知識なしにハードルを克服する新しいフレームワークである。
IRLEEDは既存の逆強化学習(IRL)アルゴリズムを強化し、報酬バイアスと行動分散に対処するために、実証者準最適性のための一般的なモデルを組み合わせる。
オンラインおよびオフラインのIL設定、シミュレーションと人為的なデータによる実験は、IRLEEDの適応性と有効性を示している。
論文 参考訳(メタデータ) (2024-02-02T20:21:09Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer [62.41501243027603]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,エキスパートエンティティであるOMoEという,単純かつ高効率なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Imitation Learning from Observation through Optimal Transport [27.74656501103977]
イミテーション・ラーニング・オブ・オブ・オブ・オブ・観察(ILfO)は、学習者が専門家の行動を模倣しようとする環境である。
学習モデルや逆学習を必要とせずに、既存の手法を単純化して報酬関数を生成することができることを示す。
我々は,このシンプルな手法が様々な連続制御タスクに対して有効であることを示し,IlfO設定の技法の状態を超越していることを見出した。
論文 参考訳(メタデータ) (2023-10-02T20:53:20Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Reinforced Imitation Learning by Free Energy Principle [2.9327503320877457]
強化学習(Reinforcement Learning, RL)は、特にスパース・リワード・セッティングにおいて、大量の探索を必要とする。
イミテーション・ラーニング(IL)は、専門家によるデモンストレーションから探究なしで学ぶことができる。
自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する
論文 参考訳(メタデータ) (2021-07-25T14:19:29Z) - MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。
我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。
このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:26Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。