論文の概要: DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer
- arxiv url: http://arxiv.org/abs/2603.15166v1
- Date: Mon, 16 Mar 2026 12:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.195898
- Title: DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer
- Title(参考訳): DAIT:適応型中間教師移動を用いた視覚言語モデルから軽量分類器への拡張
- Authors: Zhengxu He, Jun Li, Zhijian Wu,
- Abstract要約: 大規模ビジョンランゲージモデル(VLM)は、細粒度の視覚分類に非常に有用なリッチなマルチモーダルセマンティクスを符号化する。
計算コストの禁止は、資源制約のある環境での実践的な展開を妨げる。
本稿では,VLM から軽量学生への適応的知識伝達を容易にするために,DAIT (Adaptive Intermediate Teacher Transfer) を提案する。
- 参考スコア(独自算出の注目度): 10.030998208145807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Vision-Language Models (VLMs) encode rich multimodal semantics that are highly beneficial for fine-grained visual categorization (FGVC). However, their prohibitive computational cost hinders practical deployment in resource-constrained environments. Although knowledge distillation contributes to transferring VLMs capacity to lightweight classifiers, conventional distillation mechanisms, which directly transfer from a generic VLM to a compact student, often yield suboptimal results due to severe architectural misalignment and introducing task-irrelevant information. To alleviate this limitation, we propose Distillation with Adaptive Intermediate Teacher transfer (DAIT) in this study, facilitating adaptive knowledge transfer from VLMs to lightweight students. DAIT introduces a trainable intermediate teacher that learns to transfer frozen VLMs representations under explicit supervision from the target fine-grained task. This intermediate teacher adaptively enhances discriminative visual cues, thereby producing compact and task-aligned knowledge that can be reliably distilled into lightweight models. Extensive evaluations on multiple FGVC benchmarks with diverse student architectures demonstrate that our method achieves respective performance gains of 12.63% and 8.34% on FGVC-Aircraft and CUB-200-2011 datasets, establishing DAIT as a principled paradigm for transferring from general-purpose VLMS to deployable fine-grained recognition models.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、細粒度視覚分類(FGVC)に非常に有用なリッチなマルチモーダルセマンティクスを符号化する。
しかし、その計算コストの禁止は、資源制約のある環境での実践的な展開を妨げる。
知識蒸留は、VLMのキャパシティを軽量な分類器に移すのに寄与するが、一般的なVLMからコンパクトな学生へ直接移行する従来の蒸留機構は、しばしば重度のアーキテクチャ上のミスアライメントとタスク非関連情報の導入により、最適以下の結果をもたらす。
この制限を緩和するため、本研究では、VLMから軽量学生への適応的知識伝達を容易にするために、適応型中間教師移転(DAIT)による蒸留を提案する。
DAITは、目標のきめ細かいタスクから明示的な監督の下で凍結したVLM表現を転送することを学ぶ訓練可能な中間教師を紹介する。
この中間教師は、識別的視覚的手がかりを適応的に強化し、より軽量なモデルに確実に蒸留できるコンパクトでタスクに沿った知識を生み出す。
FGVC-Aircraft と CUB-200-2011 のデータセットで, DAIT を汎用 VLMS から展開可能な粒度認識モデルへ移行するための基本パラダイムとして確立した。
関連論文リスト
- Knowledge Vector Weakening: Efficient Training-free Unlearning for Large Vision-Language Models [16.045233710264842]
Knowledge Vector Weakening (KVW) は、勾配計算なしで直接モデルに介入する訓練なしのアンラーニング手法である。
MLLMUとCLEARのベンチマーク実験により、KVWは安定な忘れがちなトレードオフを達成し、計算効率を著しく向上することを示した。
論文 参考訳(メタデータ) (2026-01-29T14:41:01Z) - VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation [67.98620973023709]
VOLDは、テキストのみの教師モデルからVLMの学生モデルに推論機能を移行するためのフレームワークである。
VOLDはベースラインモデルよりも大幅に優れ,最先端技術よりもマージンが向上していることを示す。
論文 参考訳(メタデータ) (2025-10-27T16:32:12Z) - LLM-empowered Dynamic Prompt Routing for Vision-Language Models Tuning under Long-Tailed Distributions [3.5268162595059076]
本稿では,視覚言語モデル(VLM)のための多次元動的プロンプトルーティング(MDPR)フレームワークを提案する。
MDPRは5つの視覚的セマンティック次元にまたがる、クラスのための総合的な知識ベースを構築する。
CIFAR-LT、ImageNet-LT、Places-LTなどの長期ベンチマークの実験は、MDPRが現在のSOTAメソッドと同等の結果を得ることを示した。
論文 参考訳(メタデータ) (2025-08-21T16:12:06Z) - Seeing Further on the Shoulders of Giants: Knowledge Inheritance for Vision Foundation Models [54.517276878748305]
ビジョンファウンデーションモデル(VFM)は、主にデータ中心の手法を用いて開発されている。
多くのオープンソースビジョンモデルは、ドメイン固有のデータに基づいて事前訓練されている。
本稿では,共同知識の伝達と保存を通じてVFMを訓練するためのモデル駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2025-08-20T13:30:23Z) - DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - DDK: Distilling Domain Knowledge for Efficient Large Language Models [40.839056203329136]
知識蒸留(KD)は、より小さな言語モデルの性能を向上させる効果的な戦略として登場した。
本稿では,教員モデルと学生モデルとのドメイン性能差に応じて蒸留データセットの構成を調整するDDKについて紹介する。
大規模評価の結果,DDK は学生モデルの性能を著しく向上させ,継続的な事前学習ベースラインと既存の知識蒸留法を大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2024-07-23T03:47:28Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Leveraging Vision-Language Models for Improving Domain Generalization in
Image Classification [35.277880733198586]
VLM(Vision-Language Models)は、大量の画像とテキストのペアで訓練され、複数のデータ分布に顕著な一般化をもたらす。
本稿では,教師モデルの視覚と言語モダリティを,事前学習した学生モデルの視覚のモダリティと整合させるビジョン・ランゲージ・トゥ・ビジョン(VL2V-ADiP)を提案する。
これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。
論文 参考訳(メタデータ) (2023-10-12T11:59:54Z) - LIB-KD: Teaching Inductive Bias for Efficient Vision Transformer Distillation and Compression [4.0120180943504655]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の展望を提供する。
本稿では, 共用軽量教師モデルから誘導バイアスを消し去る, アンサンブルに基づく蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T13:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。