Fugu-MT 論文翻訳(概要): MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation

論文の概要: MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation

arxiv url: http://arxiv.org/abs/2409.18800v1
Date: Fri, 27 Sep 2024 14:54:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 11:53:50.425402
Title: MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation
Title（参考訳）: MiniVLN:進歩的知識蒸留による効率的な視覚・言語ナビゲーション
Authors: Junyou Zhu, Yanyuan Qiao, Siqi Zhang, Xingjian He, Qi Wu, Jing Liu,
Abstract要約: VLN(Vision-and-Language Navigation)は、Embodied AIのコアタスクである。本稿では,2段階の知識蒸留フレームワークを導入し,学生モデルMiniVLNについて述べる。その結果,2段階蒸留法は,教師モデルと学生モデルのパフォーマンスギャップを狭めるのに有効であることが示唆された。
参考スコア（独自算出の注目度）: 17.27883003990266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, Embodied Artificial Intelligence (Embodied AI) has advanced rapidly, yet the increasing size of models conflicts with the limited computational capabilities of Embodied AI platforms. To address this challenge, we aim to achieve both high model performance and practical deployability. Specifically, we focus on Vision-and-Language Navigation (VLN), a core task in Embodied AI. This paper introduces a two-stage knowledge distillation framework, producing a student model, MiniVLN, and showcasing the significant potential of distillation techniques in developing lightweight models. The proposed method aims to capture fine-grained knowledge during the pretraining phase and navigation-specific knowledge during the fine-tuning phase. Our findings indicate that the two-stage distillation approach is more effective in narrowing the performance gap between the teacher model and the student model compared to single-stage distillation. On the public R2R and REVERIE benchmarks, MiniVLN achieves performance on par with the teacher model while having only about 12% of the teacher model's parameter count.
Abstract（参考訳）: 近年、Embodied AI(Embodied AI)は急速に進歩しているが、モデルのサイズが大きくなるにつれて、Embodied AIプラットフォームの限られた計算能力と矛盾している。この課題に対処するため、我々は高モデル性能と実用的なデプロイ可能性の両方を達成することを目指している。具体的には、Embodied AIのコアタスクであるVision-and-Language Navigation(VLN)に焦点を当てる。本稿では,2段階の知識蒸留フレームワークを導入し,学生モデルMiniVLNを作成し,軽量モデル開発における蒸留技術の可能性を示す。提案手法は,事前学習段階における微粒な知識と微粒な学習段階における航法固有の知識を捉えることを目的としている。その結果, 2段階蒸留法は, 単段階蒸留法と比較して, 教師モデルと生徒モデルのパフォーマンスギャップを狭めるのに有効であることが示唆された。公開R2RとREVERIEベンチマークでは、MiniVLNは教師モデルのパラメータの約12%しか持たず、教師モデルと同等のパフォーマンスを達成する。

関連論文リスト

ActionCodec: What Makes for Good Action Tokenizers [106.78093973045526]
VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
論文参考訳（メタデータ） (2026-02-17T07:07:15Z)
Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation [63.302074484672424]
本稿では,知識蒸留のための教育的な枠組みを提案する。提案手法は,学生モデルにおける知識不足を識別し,進歩的カリキュラムを通して知識提供を組織化し,学生モデルの認知能力に合わせた表現を適応させる。我々のフレームワークは特に複雑な推論タスクに優れており、最先端のベースラインと比較してMATHが19.2%、HumanEvalが22.3%改善している。
論文参考訳（メタデータ） (2026-02-12T17:00:36Z)
Topology-Guided Knowledge Distillation for Efficient Point Cloud Processing [3.3903891679981593]
本研究は,高能力教師から軽量学生モデルへ知識を伝達する新しい蒸留フレームワークを導入する。提案手法は,学生モデルの学習過程を選択的に導きながら,点雲の基底となる幾何学的構造を捉える。本手法は,LiDARデータのみに基づいて訓練された知識蒸留技術における最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-12T22:15:54Z)
Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability [3.224880576815583]
大規模言語モデルの高い計算とストレージ要求は、リソース制約のある環境への展開を制限する。これまでの研究では, 学習データの生成と学生モデルの訓練のための蒸留法がいくつか導入されている。その関連性にも拘わらず, 現状蒸留法がモデル性能および説明可能性に与える影響については, 十分に検討されていない。
論文参考訳（メタデータ） (2025-04-22T17:32:48Z)
CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文参考訳（メタデータ） (2025-03-23T23:53:08Z)
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8298782282181865]
本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。 TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
論文参考訳（メタデータ） (2025-01-28T13:31:18Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
AMD: Automatic Multi-step Distillation of Large-scale Vision Models [39.70559487432038]
本稿では,大規模視覚モデル圧縮のための自動多段階蒸留法(AMD)を提案する。生徒のパフォーマンスを最大化する最適な教師支援者を自動的に識別する,効率的かつ効果的な最適化フレームワークが導入された。
論文参考訳（メタデータ） (2024-07-05T01:35:42Z)
TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-02T02:29:41Z)
Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文参考訳（メタデータ） (2024-01-19T07:34:36Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Generative Model-based Feature Knowledge Distillation for Action Recognition [11.31068233536815]
本稿では,軽量学生モデルの学習のための生成モデルを用いた,革新的な知識蒸留フレームワークについて紹介する。提案手法の有効性は,多種多様な人気データセットに対する総合的な実験によって実証される。
論文参考訳（メタデータ） (2023-12-14T03:55:29Z)
Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。 MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文参考訳（メタデータ） (2022-07-04T14:08:59Z)
Waypoint Models for Instruction-guided Navigation in Continuous Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文参考訳（メタデータ） (2021-10-05T17:55:49Z)
AttentionLite: Towards Efficient Self-Attention Models for Vision [9.957033392865982]
本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。計算量の多い教師から知識を同時蒸留でき、同時に学生モデルを1回の訓練パスで刈り取ることができる。
論文参考訳（メタデータ） (2020-12-21T17:54:09Z)
Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文参考訳（メタデータ） (2020-12-11T08:56:39Z)
Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4～4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文参考訳（メタデータ） (2020-09-15T17:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。