論文の概要: When Better Teachers Don't Make Better Students: Revisiting Knowledge Distillation for CLIP Models in VQA
- arxiv url: http://arxiv.org/abs/2511.17886v1
- Date: Sat, 22 Nov 2025 02:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.495108
- Title: When Better Teachers Don't Make Better Students: Revisiting Knowledge Distillation for CLIP Models in VQA
- Title(参考訳): より良い教師がより良い生徒を作らないとき--VQAにおけるCLIPモデルの知識蒸留を再考する
- Authors: Pume Tuchinda, Parinthapat Pengpun, Romrawin Chumpu, Sarana Nutanong, Peerat Limkonchotiwat,
- Abstract要約: 視覚言語モデル(VLM)は、マルチモーダルタスク全体にわたって顕著な成功を収めてきたが、その膨大な計算要求は効率的なデプロイメントを妨げている。
知識蒸留(KD)は、軽量だが競争力のあるモデルを構築するための強力なアプローチとして登場した。
本稿では,標準ベースラインから大規模技術モデルまで,CLIPスタイルの教師モデルにまたがる蒸留に関する最初の体系的研究について述べる。
- 参考スコア(独自算出の注目度): 13.795585671688213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have achieved remarkable success across multimodal tasks, yet their substantial computational demands hinder efficient deployment. Knowledge distillation (KD) has emerged as a powerful approach for building lightweight but competitive models, with strong evidence from both language and vision domains. However, its application to VLMs, particularly CLIP-style models, remains limited, often constrained to small-scale teachers and narrow evaluation tasks such as classification or retrieval. In this work, we present the first systematic study of distillation across a range of CLIP-style teacher models, ranging from standard baselines to large-scale state-of-the-art models. Contrary to trends observed in NLP and vision, we find that stronger teachers do not consistently yield better students; in fact, existing distillation frameworks often fail to scale, leading to degraded performance in downstream multimodal tasks such as visual question answering. Our findings challenge prevailing assumptions in KD and point toward new directions for designing parameter-efficient multimodal models.
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダルタスク全体にわたって顕著な成功を収めてきたが、その膨大な計算要求は効率的なデプロイメントを妨げている。
知識蒸留(KD)は、軽量だが競争的なモデルを構築するための強力なアプローチとして現れており、言語と視覚の両方の領域から強い証拠がある。
しかし、VLM、特にCLIPスタイルのモデルへの応用は限定的であり、小規模の教師や分類や検索などの狭い評価タスクに制限されることが多い。
本稿では,標準ベースラインから大規模技術モデルまで,様々なCLIPスタイルの教師モデルの蒸留に関する最初の体系的研究について述べる。
NLPや視力の傾向とは対照的に、強い教師が常により良い生徒を産み出すわけではない。実際、既存の蒸留フレームワークはスケールに失敗することが多く、視覚的質問応答のような下流のマルチモーダルタスクにおける性能低下につながっている。
本研究は,パラメータ効率のよいマルチモーダルモデルを設計する上で,KDの仮定と新たな方向に向けての課題である。
関連論文リスト
- CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。
我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文 参考訳(メタデータ) (2025-03-23T23:53:08Z) - Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning [12.728451197053321]
小型視覚言語モデル(VLM)に特化して設計された新しいポストトレーニングパラダイムであるCurr-ReFT(Curr-ReFT)を提案する。
Curr-ReFTは、カリキュラム強化学習(Curriculum Reinforcement Learning)とRejected Smplingベースの自己改善(Rejected Smpling-based Self-improvement)の2段階からなる。
実験により,Curr-ReFTパラダイムで訓練したモデルが,様々な視覚的タスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-10T08:48:50Z) - RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。
我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。
本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-12-10T17:06:41Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Multimodal CLIP Inference for Meta-Few-Shot Image Classification [0.0]
CLIPのようなマルチモーダル基盤モデルは、ジョイント(イメージ、テキスト)埋め込みを学ぶ。
本研究では、CLIPのテキストと画像エンコーダのモダリティを組み合わせることで、広く採用されているベンチマークにおいて、最先端のメタファ学習者より優れていることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。