Fugu-MT 論文翻訳(概要): Optimism is All You Need: Model-Based Imitation Learning From Observation Alone

論文の概要: Optimism is All You Need: Model-Based Imitation Learning From Observation Alone

arxiv url: http://arxiv.org/abs/2102.10769v1
Date: Mon, 22 Feb 2021 04:38:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-23 15:15:13.269092
Title: Optimism is All You Need: Model-Based Imitation Learning From Observation Alone
Title（参考訳）: 楽観主義は必要なものすべて:観察からモデルに基づく模倣を学ぶ
Authors: Rahul Kidambi, Jonathan Chang, Wen Sun
Abstract要約: 本稿では,観察者のみからの模倣学習(ilfo)を,専門家が遭遇した状態のみからなる専門家のデモンストレーションで提示する。 ILFO問題の解決に有効なモデルベースフレームワークであるMobILEを提案する。
参考スコア（独自算出の注目度）: 14.85515032374775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies Imitation Learning from Observations alone (ILFO) where the learner is presented with expert demonstrations that only consist of states encountered by an expert (without access to actions taken by the expert). We present a provably efficient model-based framework MobILE to solve the ILFO problem. MobILE involves carefully trading off exploration against imitation - this is achieved by integrating the idea of optimism in the face of uncertainty into the distribution matching imitation learning (IL) framework. We provide a unified analysis for MobILE, and demonstrate that MobILE enjoys strong performance guarantees for classes of MDP dynamics that satisfy certain well studied notions of complexity. We also show that the ILFO problem is strictly harder than the standard IL problem by reducing ILFO to a multi-armed bandit problem indicating that exploration is necessary for ILFO. We complement these theoretical results with experimental simulations on benchmark OpenAI Gym tasks that indicate the efficacy of MobILE.
Abstract（参考訳）: 本論文は、専門家が遭遇した状態(専門家の行動にアクセスせずに)のみからなる専門家によるデモンストレーションを行うILFO(Imitation Learning from Observations)について研究する。 ILFO問題の解決に有効なモデルベースフレームワークであるMobILEを提案する。これは、不確実性に直面した楽観主義のアイデアを、分布マッチング模倣学習(distribution matching imitation learning, il)フレームワークに統合することによって達成される。我々は MobILE の統一解析を行い、MobILE がある種のよく研究された複雑性の概念を満たす MDP 力学のクラスに対して強い性能保証を享受していることを示す。また,ILFOの探索が必須であることを示すマルチアームバンディット問題に対するILFOの低減により,ILFOの問題は標準的なIL問題よりも厳しくなることを示す。我々はこれらの理論結果を,MobILEの有効性を示すベンチマークOpenAI Gymタスクの実験シミュレーションで補完する。

関連論文リスト

Mixture of Experts Provably Detect and Learn the Latent Cluster Structure in Gradient-Based Learning [33.342433025421926]
MoEは、バニラルータを備えた特殊なモデルのアンサンブルで、各入力を適切な専門家に動的に配布する。我々は,各専門家が個々のクラスタに対応するより単純な関数を弱めに回復する能力を活用して,この問題をより簡単なサブプロブレムに分割することに成功していることを示す。
論文参考訳（メタデータ） (2025-06-02T13:26:44Z)
Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
UIPE: Enhancing LLM Unlearning by Removing Knowledge Related to Forgetting Targets [41.0340052199534]
大規模言語モデル(LLM)は、大規模なデータセットのトレーニング中に必然的に有害な情報を取得する。既存のアンラーニング手法は、非ラーニングの有効性に論理的関連知識が与える決定的な影響を克服しつつ、対象データを忘れることに重点を置いている。本研究では,忘れる対象と高い相関性を持つ知識を除去するUIPE(Unlearning Improvement via Extrapolation)を提案する。
論文参考訳（メタデータ） (2025-03-06T18:40:00Z)
Learning Mask Invariant Mutual Information for Masked Image Modeling [35.63719638508299]
Maskedencodes (MAEs) はコンピュータビジョンにおける卓越した自己教師型学習パラダイムである。近年の研究では、コントラスト学習と特徴表現分析を通じて、MAEの機能の解明が試みられている。本稿では,情報理論における情報ボトルネックの原理を活用することで,MAEを理解するための新たな視点を提案する。
論文参考訳（メタデータ） (2025-02-27T03:19:05Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳（メタデータ） (2024-12-11T11:38:11Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文参考訳（メタデータ） (2024-09-04T13:17:09Z)
Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
Mastering the Task of Open Information Extraction with Large Language Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文参考訳（メタデータ） (2023-10-16T17:11:42Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)
Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。 CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文参考訳（メタデータ） (2021-11-26T10:57:47Z)
Reinforced Imitation Learning by Free Energy Principle [2.9327503320877457]
強化学習(Reinforcement Learning, RL)は、特にスパース・リワード・セッティングにおいて、大量の探索を必要とする。イミテーション・ラーニング(IL)は、専門家によるデモンストレーションから探究なしで学ぶことができる。自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する
論文参考訳（メタデータ） (2021-07-25T14:19:29Z)
MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文参考訳（メタデータ） (2021-06-29T12:52:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。