論文の概要: Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions
- arxiv url: http://arxiv.org/abs/2602.09483v1
- Date: Tue, 10 Feb 2026 07:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.426157
- Title: Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions
- Title(参考訳): 次世代アライメントを超えて:トークンインタラクションによるマルチモーダル大言語モデルの蒸留
- Authors: Lin Chen, Xiaoke Zhao, Kun Ding, Weiwei Feng, Changtao Miao, Zili Wang, Wenxuan Guo, Ying Wang, Kaiyuan Zheng, Bo Zhang, Zhe Li, Shiming Xiang,
- Abstract要約: 本稿では,トークンインタラクションの観点から設計された新しいKDフレームワークであるAlign-TIを紹介する。
我々のアプローチは、MLLMが視覚情報抽出のための視覚-指示トークン相互作用とコヒーレント生成のための応答トークン相互作用の2つの主要な相互作用に依存しているという洞察に動機付けられている。
- 参考スコア(独自算出の注目度): 33.54873330567528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate impressive cross-modal capabilities, yet their substantial size poses significant deployment challenges. Knowledge distillation (KD) is a promising solution for compressing these models, but existing methods primarily rely on static next-token alignment, neglecting the dynamic token interactions, which embed essential capabilities for multimodal understanding and generation. To this end, we introduce Align-TI, a novel KD framework designed from the perspective of Token Interactions. Our approach is motivated by the insight that MLLMs rely on two primary interactions: vision-instruction token interactions to extract relevant visual information, and intra-response token interactions for coherent generation. Accordingly, Align-TI introduces two components: IVA enables the student model to imitate the teacher's instruction-relevant visual information extract capability by aligning on salient visual regions. TPA captures the teacher's dynamic generative logic by aligning the sequential token-to-token transition probabilities. Extensive experiments demonstrate Align-TI's superiority. Notably, our approach achieves $2.6\%$ relative improvement over Vanilla KD, and our distilled Align-TI-2B even outperforms LLaVA-1.5-7B (a much larger MLLM) by $7.0\%$, establishing a new state-of-the-art distillation framework for training parameter-efficient MLLMs. Code is available at https://github.com/lchen1019/Align-TI.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、印象的なクロスモーダル機能を示すが、その相当なサイズは、デプロイメント上の大きな課題を生じさせる。
知識蒸留(KD)はこれらのモデルを圧縮するための有望な解であるが、既存の手法は主に静的な次世代のアライメントに依存し、動的トークン相互作用を無視する。
そこで本稿では,トークンインタラクションの観点から設計された新しいKDフレームワークであるAlign-TIを紹介する。
我々のアプローチは、MLLMが視覚情報抽出のための視覚-指示トークン相互作用とコヒーレント生成のための応答トークン相互作用の2つの主要な相互作用に依存しているという洞察に動機付けられている。
そのため、Align-TIは2つのコンポーネントを導入している。 IVAは教師の指導関連視覚情報抽出能力を模倣し、有能な視覚領域に整列させることを可能にしている。
TPAは、シーケンシャルトークン間遷移確率を調整することで、教師の動的生成ロジックをキャプチャする。
大規模な実験はAlign-TIの優位性を示している。
特に,本手法はバニラKDに対して2.6 %の相対的改善を達成し,蒸留したAlign-TI-2BはLLaVA-1.5-7B(より大きいMLLM)を7.0 %で上回り,パラメータ効率の高いMLLMをトレーニングするための新しい最先端蒸留フレームワークを構築した。
コードはhttps://github.com/lchen1019/Align-TIで入手できる。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - M$^2$IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering [21.75002972755496]
マルチモーダル・インコンテキスト・ラーニング(ICL)は、LVLM(Large Vision-Language Models)と、複数のユーザが提供するデモを通じて新しいタスクに適応する能力を備えている。
しかし、その効果はマルチモーダル入力のトークン集約性や、クロスモーダルな数ショット推論の複雑さによって制約されている。
textbfM$2$IVは、明示的なトークンレベルのデモを学習可能なマルチモーダル・インコンテキストベクトルの集合に置き換える新しい表現工学手法である。
論文 参考訳(メタデータ) (2025-04-06T22:02:21Z) - Knowledge-Decoupled Synergetic Learning: An MLLM based Collaborative Approach to Few-shot Multimodal Dialogue Intention Recognition [17.790383360652704]
数発のマルチモーダル対話意図認識のためのトレーニングには、2つの相互接続タスクが含まれる。
この現象は、トレーニング過程における重み行列更新の重畳による知識干渉に起因する。
本稿では,知識を解釈可能な規則に変換する知識分離型シナジー学習を提案する。
論文 参考訳(メタデータ) (2025-03-06T08:28:44Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。