Fugu-MT 論文翻訳(概要): From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

論文の概要: From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

arxiv url: http://arxiv.org/abs/2603.10877v1
Date: Wed, 11 Mar 2026 15:24:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:33.027658
Title: From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers
Title（参考訳）: 画像から言葉へ:ブラックボックス教師の効率的なクロスモーダル知識蒸留から言語モデルへ
Authors: Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty,
Abstract要約: ARMADAは、大規模な視覚言語モデルから言語のみのモデルに知識を伝達するために設計された、クロスモーダルな知識蒸留フレームワークである。 ARMADAを12の自然言語理解,8つの複雑な生成推論,5つの命令チューニングタスクで実証的に検証した。本研究は,従来の知識蒸留パラダイムに挑戦し,視覚言語モデルであっても適切な蒸留を行うと言語モデルを大幅に向上させることができることを示した。
参考スコア（独自算出の注目度）: 33.522307330599496
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge distillation (KD) methods are pivotal in compressing large pre-trained language models into smaller models, ensuring computational efficiency without significantly dropping performance. Traditional KD techniques assume homogeneity in modalities between the teacher (source) and the student (target) models. On the other hand, existing multimodal knowledge distillation methods require modality-specific pre-training of the teacher model, which is computationally infeasible in most cases. In this paper, we introduce ARMADA, an efficient cross-modal knowledge distillation framework designed to transfer knowledge from large vision-language models, including black-box models, to language-only models. Unlike existing KD techniques that rely on the internal structures of multimodal teachers or require computationally expensive pre-training, ARMADA leverages novel alignment techniques to distil knowledge without altering the teacher model, ensuring efficiency and scalability. We empirically validate ARMADA on twelve natural language understanding, eight complex generative reasoning and five instruction-tuning tasks, demonstrating consistent performance improvements in large models such as DeBERTa-v2-1.4B, OPT-1.3B, LLaMA-{3B, 7B, 8B}. ARMADA achieves up to 3.4% improvement on language understanding tasks and 2.6% boost in generative reasoning, all without requiring expensive multimodal pre-training or fine-tuning of the teacher model. Our findings challenge conventional knowledge distillation paradigms by demonstrating that even vision-language models, despite lacking direct textual understanding, can significantly enhance language models when distilled appropriately.
Abstract（参考訳）: 知識蒸留(KD)法は、大きな事前訓練された言語モデルをより小さなモデルに圧縮する上で重要な手法であり、性能を著しく低下させることなく計算効率を確保できる。伝統的なKD手法は、教師(ソース)と学生(ターゲット)モデルの間のモダリティの均一性を仮定する。一方,既存のマルチモーダル知識蒸留法では,教師モデルのモーダリティ固有の事前学習が必要であり,ほとんどの場合,計算的に不可能である。本稿では,ブラックボックスモデルを含む大規模視覚言語モデルから言語のみのモデルへの知識伝達を目的とした,効率的なクロスモーダルな知識蒸留フレームワークARMADAを紹介する。マルチモーダル教師の内部構造に依存したり、計算に高価な事前訓練を必要とする既存のKD技術とは異なり、ARMADAは教師モデルを変更することなく知識を排除し、効率とスケーラビリティを確保するために、新しいアライメント技術を活用している。 DeBERTa-v2-1.4B, OPT-1.3B, LLaMA-{3B, 7B, 8B} などの大規模モデルにおいて, ARMADA を12の自然言語理解, 8つの複雑な生成的推論, 5つの命令チューニングタスクで実証的に検証した。 ARMADAは、言語理解タスクを最大3.4%改善し、生成的推論を2.6%向上させる。本研究は, 直接テキスト理解に欠ける視覚言語モデルであっても, 適切な蒸留を行うと, 言語モデルを大幅に向上させることができることを示すことによって, 従来の知識蒸留パラダイムに挑戦する。

関連論文リスト

AfroXLMR-Comet: Multilingual Knowledge Distillation with Attention Matching for Low-Resource languages [0.19381162067627603]
本稿では,従来の知識蒸留と簡易な注意マッチング機構を組み合わせた新しいハイブリッド蒸留手法を提案する。我々は、キニルワンダ、スワヒリ、ハウサ、イグボ、ヨルバの5つのアフリカの言語に対する我々のアプローチを評価した。
論文参考訳（メタデータ） (2025-02-25T09:28:47Z)
ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文参考訳（メタデータ） (2024-12-25T18:58:07Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)
ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文参考訳（メタデータ） (2021-07-05T16:54:59Z)
Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文参考訳（メタデータ） (2020-12-11T08:56:39Z)
Collective Wisdom: Improving Low-resource Neural Machine Translation using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。 IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2020-10-12T04:26:46Z)
lamBERT: Language and Action Learning Using Multimodal BERT [0.1942428068361014]
本研究では,マルチモーダルBERT(lamBERT)モデルを用いた言語と行動学習を提案する。実験は、エージェントが適切に振る舞うために言語理解を必要とするグリッド環境で行われる。 lamBERTモデルは、他のモデルと比較してマルチタスク設定や転送設定において高い報酬を得た。
論文参考訳（メタデータ） (2020-04-15T13:54:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。