論文の概要: Online In-Context Distillation for Low-Resource Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.18117v1
- Date: Mon, 20 Oct 2025 21:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.634718
- Title: Online In-Context Distillation for Low-Resource Vision Language Models
- Title(参考訳): 低リソースビジョン言語モデルのためのオンラインインコンテキスト蒸留
- Authors: Zhiqi Kang, Rahaf Aljundi, Vaggelis Dorovatas, Karteek Alahari,
- Abstract要約: 小さな視覚言語モデル(VLM)は効率的だが、デプロイメント領域におけるより大きなモデルとのパフォーマンスギャップを埋めるためには、通常、コストのかかる微調整が必要である。
In-Context Distillation (ICD) 手法を提案する。この手法では,小さなVLMが推論時により強力な教師モデルと協調する。
本手法は,教師注記の少ない小モデル(最大33%)の性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 16.3054668860198
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the field continues its push for ever more resources, this work turns the spotlight on a critical question: how can vision-language models (VLMs) be adapted to thrive in low-resource, budget-constrained settings? While large VLMs offer strong performance, they are impractical to deploy in such settings. Small VLMs, on the other hand, are efficient but typically require costly fine-tuning to close the performance gap with larger models in the deployment domain. Inspired by the in-context learning framework, we propose an online In-Context Distillation (ICD) method, in which a small VLM collaborates with a stronger teacher model at inference time, distilling its knowledge via sparse demonstrations to efficiently bridge the gap between them. Our method is built on an in-depth analysis that identifies the scale and the choice of models for which vision-language ICL is currently feasible, and demonstrates the advantage of ICL over fine-tuning under constrained compute budgets. We enhance our method with a novel cross-modal demonstration selection strategy, teacher test-time scaling to reduce noise, and student uncertainty conditioning to dynamically populate a demonstration pool and minimize teacher queries. Our ICD method significantly boosts the performance of small models (up to 33%) using scarce teacher annotations (as low as 4%), and competes with the teacher's zero-shot performance.
- Abstract(参考訳): ビジョン言語モデル(VLM)が低リソースで予算制約のある環境で成長するためにどのように適応できるか?
大きなVLMは強力なパフォーマンスを提供するが、そのような環境でのデプロイは現実的ではない。
一方、小さなVLMは効率的ですが、デプロイメント領域における大きなモデルとのパフォーマンスギャップを埋めるためには、通常、コストのかかる微調整が必要です。
In-context Learning framework に着想を得たオンラインの In-Context Distillation (ICD) 手法を提案する。この手法では、小さな VLM が推論時により強力な教師モデルと協調し、その知識をスパース・デモを通じて蒸留し、それらのギャップを効率的に橋渡しする。
提案手法は,視覚言語ICLが現在実現可能なモデルのスケールと選択を詳細に解析し,制約された計算予算下での微調整よりもICLの利点を実証する。
我々は,新しいクロスモーダルな実演選択戦略,騒音低減のための教師テストタイムスケーリング,デモプールを動的に表示し,教師の質問を最小化するための学生の不確実性条件により,提案手法を強化した。
筆者らのICD法は,教師アノテーションの不足(4%以下)により,小型モデル(最大33%)の性能を著しく向上させ,教師のゼロショット性能と競合する。
関連論文リスト
- Unified Reinforcement and Imitation Learning for Vision-Language Models [84.84277196012907]
VLM(Vision-Language Models)は目覚ましい進歩を遂げているが、その大規模化によって資源制約のある環境では実用的でないことがしばしばある。
本稿では、強力で軽量なVLMを作成するために設計された、新規で効率的なトレーニングアルゴリズムであるUnified Reinforcement and Imitation Learning (RIL)を紹介する。
論文 参考訳(メタデータ) (2025-10-22T07:12:14Z) - Multi-MLLM Knowledge Distillation for Out-of-Context News Detection [17.41734069411864]
マルチモーダル・アウト・オブ・コンテクスト・ニュース(Multimodal out-of-context news)は、画像が元の文脈以外で使用される誤報の一種である。
本稿では,この知識を学生MLLMに伝達するための2段階の知識蒸留フレームワークを提案する。
ステージ1では、すべてのトレーニングデータを用いて、LoRAの微調整を学生モデルに適用する。
ステージ2では、教師の予測が矛盾するデータポイント上で、LoRAファインタニングとDPOの両方を用いて、学生モデルをさらに微調整する。
論文 参考訳(メタデータ) (2025-05-28T16:03:41Z) - TinyAlign: Boosting Lightweight Vision-Language Models by Mitigating Modal Alignment Bottlenecks [15.308801774590597]
ビジョンと言語モデルを調整するための一般的なアプローチは、小さなコネクタモジュールをトレーニングしながら、ビジョンエンコーダと言語モデルの両方を凍結させることである。
本研究では,このアライメントのボトルネックを相互情報のレンズを通して検討する。
本稿では、メモリバンクから関連するコンテキストを戦略的に取得し、マルチモーダル入力を豊かにし、アライメントを向上する、Retrieval-Augmented Generationにインスパイアされた新しいフレームワークTinyAlignを提案する。
論文 参考訳(メタデータ) (2025-05-19T09:11:54Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8298782282181865]
本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。
TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。
これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
論文 参考訳(メタデータ) (2025-01-28T13:31:18Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。