論文の概要: EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens
- arxiv url: http://arxiv.org/abs/2511.21106v1
- Date: Wed, 26 Nov 2025 06:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.996511
- Title: EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens
- Title(参考訳): EM-KD:非平衡ビジョントークンを用いた効率的な多モード大言語モデルの蒸留
- Authors: Ze Feng, Sen Yang, Boqiang Duan, Wankou Yang, Jingdong Wang,
- Abstract要約: 効率的なマルチモーダル大言語モデル(MLLM)は、リソース消費を減らすために視覚トークンを圧縮するが、視覚情報の喪失は理解能力を低下させる可能性がある。
学生モデルを強化するために知識蒸留を導入した先駆者もいるが、細粒度の視覚理解の根本的な違いを見落としている。
本稿では,知識蒸留による効率的なMLLMを実現する新しいパラダイムであるEM-KDを提案する。
- 参考スコア(独自算出の注目度): 37.11253070112327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient Multimodal Large Language Models (MLLMs) compress vision tokens to reduce resource consumption, but the loss of visual information can degrade comprehension capabilities. Although some priors introduce Knowledge Distillation to enhance student models, they overlook the fundamental differences in fine-grained vision comprehension caused by unbalanced vision tokens between the efficient student and vanilla teacher. In this paper, we propose EM-KD, a novel paradigm that enhances the Efficient MLLMs with Knowledge Distillation. To overcome the challenge of unbalanced vision tokens, we first calculate the Manhattan distance between the vision logits of teacher and student, and then align them in the spatial dimension with the Hungarian matching algorithm. After alignment, EM-KD introduces two distillation strategies: 1) Vision-Language Affinity Distillation (VLAD) and 2) Vision Semantic Distillation (VSD). Specifically, VLAD calculates the affinity matrix between text tokens and aligned vision tokens, and minimizes the smooth L1 distance of the student and the teacher affinity matrices. Considering the semantic richness of vision logits in the final layer, VSD employs the reverse KL divergence to measure the discrete probability distributions of the aligned vision logits over the vocabulary space. Comprehensive evaluation on diverse benchmarks demonstrates that EM-KD trained model outperforms prior Efficient MLLMs on both accuracy and efficiency with a large margin, validating its effectiveness. Compared with previous distillation methods, which are equipped with our proposed vision token matching strategy for fair comparison, EM-KD also achieves better performance.
- Abstract(参考訳): 効率的なマルチモーダル大言語モデル(MLLM)は、リソース消費を減らすために視覚トークンを圧縮するが、視覚情報の喪失は理解能力を低下させる可能性がある。
学生モデルを強化するために知識蒸留を導入した先駆者もいたが、効率の良い生徒とバニラ教師の非バランスな視覚トークンに起因する微粒化視覚理解の根本的な違いを見落としている。
本稿では,知識蒸留による効率的なMLLMを実現する新しいパラダイムであるEM-KDを提案する。
まず,教師と生徒の視線ロジット間のマンハッタン距離を計算し,その空間次元をハンガリーマッチングアルゴリズムと整合させる。
アライメント後、EM-KDは2つの蒸留戦略を導入した。
1)Vision-Language Affinity Distillation(VLAD)と
2)視覚セマンティック蒸留(VSD)
具体的には、VLADは、テキストトークンとアライメントされたビジョントークンとの間の親和性行列を算出し、学生と教師親和性行列のスムーズなL1距離を最小化する。
最終層における視覚ロジットのセマンティックリッチ性を考慮すると、VSDは逆KL分岐を用いて、語彙空間上のアライメントされた視覚ロジットの離散確率分布を測定する。
多様なベンチマークに関する総合的な評価は、EM-KD訓練されたモデルは、高いマージンで精度と効率の両方において、より効率的なMLLMよりも優れた性能を示し、その有効性を検証している。
提案手法は, 従来の蒸留法と比較し, 良好な比較を行うため, EM-KDは優れた性能を発揮する。
関連論文リスト
- VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。