論文の概要: MAGIC: Meta-Ability Guided Interactive Chain-of-Distillation for Effective-and-Efficient Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2406.17960v1
- Date: Tue, 25 Jun 2024 22:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 15:07:42.434533
- Title: MAGIC: Meta-Ability Guided Interactive Chain-of-Distillation for Effective-and-Efficient Vision-and-Language Navigation
- Title(参考訳): MAGIC: 効果的かつ効率的な視覚・言語ナビゲーションのための対話型チェイン・オブ・ディバイスレーション
- Authors: Liuyi Wang, Zongtao He, Mengjiao Shen, Jingwei Yang, Chengju Liu, Qijun Chen,
- Abstract要約: 本稿では,軽量な学生モデルを得るために,メタ能力誘導型対話型チェインオブ蒸留(MAGIC)法を提案する。
私たちの最小のモデルであるMAGIC-Sは、教師のサイズが5%(11M)しかなく、同じトレーニングデータの下で過去の方法よりも優れています。
我々の最大のモデルであるMAGIC-Lは、以前の最先端モデルを上回る5.84%のSPL、3.18%のSRである。
- 参考スコア(独自算出の注目度): 13.276856706784459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable developments of recent large models in Embodied Artificial Intelligence (E-AI), their integration into robotics is hampered by their excessive parameter sizes and computational demands. Towards the Vision-and-Language Navigation (VLN) task, a core task in E-AI, this paper reveals the great potential of using knowledge distillation for obtaining lightweight student models by proposing a Meta-Ability Guided Interactive Chain-of-distillation (MAGIC) method. Specifically, a Meta-Ability Knowledge Distillation (MAKD) framework is proposed for decoupling and refining the necessary meta-abilities of VLN agents. A Meta-Knowledge Randomization Weighting (MKRW) and a Meta-Knowledge Transferable Determination (MKTD) module are incorporated to dynamically adjust aggregation weights at the meta-ability and sample levels, respectively. Move beyond the traditional one-step unidirectional distillation, an Interactive Chain-of-Distillation (ICoD) learning strategy is proposed to allow students to give feedback to teachers, forming a new multi-step teacher-student co-evolution pipeline. Remarkably, on the R2R test unseen public leaderboard, our smallest model, MAGIC-S, with only 5% (11M) of the teacher's size, outperforms all previous methods under the same training data. Additionally, our largest model, MAGIC-L, surpasses the previous state-of-the-art by 5.84% in SPL and 3.18% in SR. Furthermore, a new dataset was collected and annotated from our living environments, where MAGIC-S demonstrated superior performance and real-time efficiency. Our code is publicly available on https://github.com/CrystalSixone/VLN-MAGIC.
- Abstract(参考訳): 近年のEmbodied Artificial Intelligence(E-AI)における大規模なモデルの発展にもかかわらず、ロボット工学への統合は、過度のパラメータサイズと計算要求によって妨げられている。
本稿では,E-AIの中核課題であるVLN(Vision-and-Language Navigation)タスクに向けて,Meta-Ability Guided Interactive Chain-of-distillation(MAGIC)手法を提案することにより,軽量な学生モデルを得るための知識蒸留の可能性を明らかにする。
具体的には, VLNエージェントのメタ能力を疎結合し, 精製するために, メタ能力知識蒸留(MAKD)フレームワークを提案する。
MKRW(Meta-Knowledge Randomization Weighting)とMeta-Knowledge Transferable determined(Meta-Knowledge Transferable determined)モジュールをそれぞれ組み込んで,メタビリティと試料レベルの凝集重量を動的に調整する。
従来の一方向蒸留を超越して、ICoD(Interactive Chain-of-Distillation)学習戦略が提案されている。
興味深いことに、R2Rテストでは、私たちの最小のモデルであるMAGIC-Sは、教師のサイズがわずか5%(11M)しかなく、同じトレーニングデータの下で過去の方法よりも優れています。
さらに、われわれの最大のモデルであるMAGIC-Lは、以前の最先端モデルを上回る5.84%のSPL、3.18%のSRである。
さらに,私たちの生活環境から新たなデータセットを収集し,アノテートし,MAGIC-Sが優れた性能とリアルタイム効率を示した。
私たちのコードはhttps://github.com/CrystalSixone/VLN-MAGICで公開されています。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Meta-Learned Modality-Weighted Knowledge Distillation for Robust Multi-Modal Learning with Missing Data [26.81952369462594]
マルチモーダル学習では、いくつかのモダリティは他のモダリティよりも影響を受けており、それらの欠如は分類・分類精度に大きな影響を及ぼす可能性がある。
本稿では,メタ学習型モダリティ重み付き知識蒸留(MetaKD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:18:10Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Meta-Learning via Classifier(-free) Guidance [5.812784742024491]
最先端のメタ学習技術は、目に見えないタスクへのゼロショット適応を最適化しない。
本稿では,自然言語指導によるゼロショット性能向上のためのメタ学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:09:35Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。