論文の概要: Overcoming Knowledge Barriers: Online Imitation Learning from Observation with Pretrained World Models
- arxiv url: http://arxiv.org/abs/2404.18896v1
- Date: Mon, 29 Apr 2024 17:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:39:07.426316
- Title: Overcoming Knowledge Barriers: Online Imitation Learning from Observation with Pretrained World Models
- Title(参考訳): 知識バリアを克服する - 事前学習された世界モデルによる観察からのオンライン模倣学習
- Authors: Xingyuan Zhang, Philip Becker-Ehmck, Patrick van der Smagt, Maximilian Karl,
- Abstract要約: 本研究では,事前学習モデルによる観察からの模倣学習について検討し,BCOやAIMEといった既存手法が知識障壁に直面していることを明らかにする。
EKB(Embodiment Knowledge Barrier)とDKB(Demonstration Knowledge Barrier)は、その性能を大幅に制限している。
AIME-v2は、データ駆動型正規化システムとオンラインインタラクションを使用して、EKBを緩和し、ポリシートレーニングを強化するために代理報酬関数を導入することでDKBを緩和する。
- 参考スコア(独自算出の注目度): 8.77288940968713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating the successful paradigm of pretraining and finetuning from Computer Vision and Natural Language Processing into decision-making has become increasingly popular in recent years. In this paper, we study Imitation Learning from Observation with pretrained models and find existing approaches such as BCO and AIME face knowledge barriers, specifically the Embodiment Knowledge Barrier (EKB) and the Demonstration Knowledge Barrier (DKB), greatly limiting their performance. The EKB arises when pretrained models lack knowledge about unseen observations, leading to errors in action inference. The DKB results from policies trained on limited demonstrations, hindering adaptability to diverse scenarios. We thoroughly analyse the underlying mechanism of these barriers and propose AIME-v2 upon AIME as a solution. AIME-v2 uses online interactions with data-driven regulariser to alleviate the EKB and mitigates the DKB by introducing a surrogate reward function to enhance policy training. Experimental results on tasks from the DeepMind Control Suite and Meta-World benchmarks demonstrate the effectiveness of these modifications in improving both sample-efficiency and converged performance. The study contributes valuable insights into resolving knowledge barriers for enhanced decision-making in pretraining-based approaches. Code will be available at https://github.com/argmax-ai/aime-v2.
- Abstract(参考訳): 近年,コンピュータビジョンと自然言語処理から意思決定への事前学習と微調整を成功させるパラダイムが普及している。
本稿では,事前学習モデルを用いた観察からの模倣学習について検討し,BCO や AIME などの既存手法,特に EKB (Embodiment Knowledge Barrier) と DKB (Demonstration Knowledge Barrier) の2つのアプローチについて述べる。
EKBは、事前訓練されたモデルが目に見えない観察に関する知識を欠いているときに発生し、行動推論の誤りを引き起こす。
DKBは、限られたデモンストレーションで訓練されたポリシーの結果であり、多様なシナリオへの適応性を妨げている。
我々はこれらの障壁の基盤となるメカニズムを徹底的に分析し、AIME を解法として AIME-v2 を提案する。
AIME-v2は、データ駆動型正規化システムとオンラインインタラクションを使用して、EKBを緩和し、ポリシートレーニングを強化するために代理報酬関数を導入することでDKBを緩和する。
DeepMind Control SuiteとMeta-Worldベンチマークのタスクに関する実験結果は、サンプル効率と収束性能の両方を改善する上で、これらの修正の有効性を実証している。
この研究は、事前学習に基づくアプローチにおける意思決定を強化するための知識障壁の解決に関する貴重な洞察に貢献する。
コードはhttps://github.com/argmax-ai/aime-v2.comから入手できる。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z) - Effective Decision Boundary Learning for Class Incremental Learning [17.716035569936384]
クラスインクリメンタルラーニング(CIL)におけるリハーサルアプローチは、新しいクラスに過度に適合する決定境界に悩まされる。
これら2つの要因に対処するための,単純かつ効果的なアプローチを提案する。
実験の結果,提案したLはいくつかのCILベンチマークにおいて,最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-01-12T18:04:51Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Regularized Behavior Value Estimation [31.332929202377]
正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
論文 参考訳(メタデータ) (2021-03-17T11:34:54Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。