論文の概要: Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.14629v1
- Date: Thu, 16 Apr 2026 05:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.73464
- Title: Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models
- Title(参考訳): Switch-KD:視覚言語モデルのための視覚スイッチ知識蒸留
- Authors: Haoyi Sun, Xiaoxiao Wang, Ning Mao, Qian Wang, Lifu Mu, Wen Zheng, Tao Wei, Wei Chen,
- Abstract要約: 視覚言語モデル(VLM)は、共同視覚言語理解において顕著な能力を示した。
知識蒸留(KD)は、モデルのサイズやデータ要求を増大させることなく、モデル機能を改善する実行可能な方法を提供する。
共有テキスト確率空間内で視覚言語による知識伝達を統一する,ビジュアルスウィッチ蒸留フレームワークであるSwitch-KDを提案する。
- 参考スコア(独自算出の注目度): 13.724766271617911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have shown remarkable capabilities in joint vision-language understanding, but their large scale poses significant challenges for deployment in resource-constrained scenarios. Knowledge Distillation (KD) offers a viable way to improve model capabilities without increasing model size or data requirements, making deployment more efficient. However, applying KD to VLMs is challenged by modality-specific supervision: although multimodal knowledge in VLMs is fused within the language space, current methods supervise each modality separately without explicitly addressing multimodal alignment, leading to inconsistent multimodal knowledge transfer. To address this, we propose Switch-KD, a visual-switch distillation framework that unifies vision-language knowledge transfer within a shared text-probability space. Switch-KD comprises two key components: (1) Visual-Switch Distillation, which switches the student's visual outputs into the teacher's language pathway to construct cross-modal probabilistic references for implicit visual knowledge transfer; and (2) Dynamic Bi-directional Logits Difference (DBiLD) loss, which adaptively aligns informative probability regions while preserving the distributional structures of teacher and student through bidirectional supervision. Guided by Switch-KD, a 0.5B TinyLLaVA effectively distills rich multimodal knowledge from its 3B teacher, yielding an average improvement of 3.6 points across 10 multimodal benchmarks without any architectural modification.
- Abstract(参考訳): VLM(Vision-Language Models)は、統合視覚言語理解において顕著な能力を示しているが、その大規模化はリソース制約のあるシナリオへの展開に重大な課題をもたらす。
知識蒸留(KD)は、モデルのサイズやデータ要求を増大させることなく、モデル機能を改善するための実行可能な方法を提供する。
しかしながら、VLMにおけるマルチモーダル知識は言語空間内で融合するが、現在の手法では、多モーダルアライメントに明示的に対処することなく、各モーダルを個別に監督し、一貫性のないマルチモーダル知識伝達をもたらす。
そこで本研究では,共有テキスト確率空間内で視覚言語による知識伝達を統一する,ビジュアルスウィッチ蒸留フレームワークであるSwitch-KDを提案する。
Switch-KDは,(1)学生の視覚出力を教師の言語経路に切り替えて,暗黙的な視覚的知識伝達のためのクロスモーダルな確率的参照を構築する視覚スイッチ蒸留,(2)教師と生徒の分布構造を維持しながら,情報的確率領域を適応的に調整する動的双方向ロジット差分(DBiLD)の2つの重要な構成要素から構成される。
Switch-KDによって導かれた0.5B TinyLLaVAは、3Bの教師から豊富なマルチモーダル知識を効果的に蒸留し、アーキテクチャの変更なしに10のマルチモーダルベンチマークで平均3.6ポイント改善する。
関連論文リスト
- Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions [33.54873330567528]
本稿では,トークンインタラクションの観点から設計された新しいKDフレームワークであるAlign-TIを紹介する。
我々のアプローチは、MLLMが視覚情報抽出のための視覚-指示トークン相互作用とコヒーレント生成のための応答トークン相互作用の2つの主要な相互作用に依存しているという洞察に動機付けられている。
論文 参考訳(メタデータ) (2026-02-10T07:26:56Z) - DAM: Dual Active Learning with Multimodal Foundation Model for Source-Free Domain Adaptation [53.323488295994395]
ソースフリーアクティブドメイン適応(SFADA)は、アクティブラーニングによって選択された限られた手動ラベルを用いて、ソースモデルから未ラベルのターゲットドメインへの知識伝達を強化する。
マルチモーダル・ファンデーション・モデルを用いたデュアルアクティブ・ラーニング(DAM)を提案する。
大規模な実験では、DAMは既存のメソッドを一貫して上回り、複数のSFADAベンチマークとアクティブな学習戦略で新しい最先端の手法を設定できる。
論文 参考訳(メタデータ) (2025-09-29T15:06:56Z) - DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。
AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。
MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文 参考訳(メタデータ) (2025-07-11T08:45:27Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。