論文の概要: Overcoming Knowledge Barriers: Online Imitation Learning from Observation with Pretrained World Models
- arxiv url: http://arxiv.org/abs/2404.18896v1
- Date: Mon, 29 Apr 2024 17:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-30 12:39:07.426316
- Title: Overcoming Knowledge Barriers: Online Imitation Learning from Observation with Pretrained World Models
- Title(参考訳): 知識バリアを克服する - 事前学習された世界モデルによる観察からのオンライン模倣学習
- Authors: Xingyuan Zhang, Philip Becker-Ehmck, Patrick van der Smagt, Maximilian Karl,
- Abstract要約: 本研究では,事前学習モデルによる観察からの模倣学習について検討し,BCOやAIMEといった既存手法が知識障壁に直面していることを明らかにする。
EKB(Embodiment Knowledge Barrier)とDKB(Demonstration Knowledge Barrier)は、その性能を大幅に制限している。
AIME-v2は、データ駆動型正規化システムとオンラインインタラクションを使用して、EKBを緩和し、ポリシートレーニングを強化するために代理報酬関数を導入することでDKBを緩和する。
- 参考スコア(独自算出の注目度): 8.77288940968713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating the successful paradigm of pretraining and finetuning from Computer Vision and Natural Language Processing into decision-making has become increasingly popular in recent years. In this paper, we study Imitation Learning from Observation with pretrained models and find existing approaches such as BCO and AIME face knowledge barriers, specifically the Embodiment Knowledge Barrier (EKB) and the Demonstration Knowledge Barrier (DKB), greatly limiting their performance. The EKB arises when pretrained models lack knowledge about unseen observations, leading to errors in action inference. The DKB results from policies trained on limited demonstrations, hindering adaptability to diverse scenarios. We thoroughly analyse the underlying mechanism of these barriers and propose AIME-v2 upon AIME as a solution. AIME-v2 uses online interactions with data-driven regulariser to alleviate the EKB and mitigates the DKB by introducing a surrogate reward function to enhance policy training. Experimental results on tasks from the DeepMind Control Suite and Meta-World benchmarks demonstrate the effectiveness of these modifications in improving both sample-efficiency and converged performance. The study contributes valuable insights into resolving knowledge barriers for enhanced decision-making in pretraining-based approaches. Code will be available at https://github.com/argmax-ai/aime-v2.
- Abstract(参考訳): 近年,コンピュータビジョンと自然言語処理から意思決定への事前学習と微調整を成功させるパラダイムが普及している。
本稿では,事前学習モデルを用いた観察からの模倣学習について検討し,BCO や AIME などの既存手法,特に EKB (Embodiment Knowledge Barrier) と DKB (Demonstration Knowledge Barrier) の2つのアプローチについて述べる。
EKBは、事前訓練されたモデルが目に見えない観察に関する知識を欠いているときに発生し、行動推論の誤りを引き起こす。
DKBは、限られたデモンストレーションで訓練されたポリシーの結果であり、多様なシナリオへの適応性を妨げている。
我々はこれらの障壁の基盤となるメカニズムを徹底的に分析し、AIME を解法として AIME-v2 を提案する。
AIME-v2は、データ駆動型正規化システムとオンラインインタラクションを使用して、EKBを緩和し、ポリシートレーニングを強化するために代理報酬関数を導入することでDKBを緩和する。
DeepMind Control SuiteとMeta-Worldベンチマークのタスクに関する実験結果は、サンプル効率と収束性能の両方を改善する上で、これらの修正の有効性を実証している。
この研究は、事前学習に基づくアプローチにおける意思決定を強化するための知識障壁の解決に関する貴重な洞察に貢献する。
コードはhttps://github.com/argmax-ai/aime-v2.comから入手できる。
関連論文リスト
- Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Meta-Learning for Physically-Constrained Neural System Identification [9.417562391585076]
ブラックボックスシステム識別のためのニューラルネットワークモデル(NSSM)の高速適応のための勾配に基づくメタラーニングフレームワークを提案する。
メタ学習モデルでは,室内の局所化とエネルギーシステムにおけるモデルベース状態推定において,ダウンストリーム性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-10T18:46:28Z) - Verifying Machine Unlearning with Explainable AI [46.7583989202789]
港の前面監視における機械学習(MU)の検証における説明可能なAI(XAI)の有効性について検討する。
私たちの概念実証は、従来のメトリクスを超えて拡張されたMUの革新的な検証ステップとして属性機能を導入しています。
本稿では,これらの手法の有効性を評価するために,熱マップカバレッジ(HC)とアテンションシフト(AS)の2つの新しいXAI指標を提案する。
論文 参考訳(メタデータ) (2024-11-20T13:57:32Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Effective Decision Boundary Learning for Class Incremental Learning [17.716035569936384]
クラスインクリメンタルラーニング(CIL)におけるリハーサルアプローチは、新しいクラスに過度に適合する決定境界に悩まされる。
これら2つの要因に対処するための,単純かつ効果的なアプローチを提案する。
実験の結果,提案したLはいくつかのCILベンチマークにおいて,最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-01-12T18:04:51Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Discriminator-Guided Model-Based Offline Imitation Learning [11.856949845359853]
オフライン模倣学習(英: offline mimicion learning, IL)は、報酬ラベルなしで専門家によるデモンストレーションから意思決定問題を解決する強力な手法である。
本稿では,モデルロールアウトデータの動的正当性と準最適性を同時に識別する識別器を導入する,識別器誘導型モデルベースオフライン学習(DMIL)フレームワークを提案する。
実験結果から,DMILとその拡張は,小規模なデータセット下での最先端のオフラインIL法と比較して,優れた性能とロバスト性が得られることが示された。
論文 参考訳(メタデータ) (2022-07-01T07:28:18Z) - Boosting Weakly Supervised Object Detection via Learning Bounding Box
Adjusters [76.36104006511684]
高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervised Object Detection)が最近の話題として登場した。
我々は、よく注釈付けされた補助データセットからバウンディングボックス回帰知識を活用することにより、ローカライズ性能を向上させるための問題設定を擁護する。
提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。
論文 参考訳(メタデータ) (2021-08-03T13:38:20Z) - Regularized Behavior Value Estimation [31.332929202377]
正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
論文 参考訳(メタデータ) (2021-03-17T11:34:54Z) - A new interpretable unsupervised anomaly detection method based on
residual explanation [47.187609203210705]
本稿では,大規模システムにおけるAEベースのADの制限に対処する新しい解釈可能性手法であるRXPを提案する。
実装の単純さ、計算コストの低さ、決定論的振る舞いが特徴である。
実鉄道路線のデータを用いた実験において,提案手法はSHAPよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-14T15:35:45Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。