論文の概要: When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs
- arxiv url: http://arxiv.org/abs/2509.16633v1
- Date: Sat, 20 Sep 2025 11:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.898607
- Title: When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs
- Title(参考訳): 大規模モデルが小物を訓練する場合:小VLMを用いた効率的な視覚質問応答のためのラベルなしモデルパリティアライメント
- Authors: Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra,
- Abstract要約: L-VLM(Large Vision-Language Models)は、様々な視覚や言語タスクにおいて顕著な性能を示す。
小型ビジョンランゲージモデル (Small Vision-Language Models, S-VLM) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本稿では,S-VLM を体系的に改善する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
- 参考スコア(独自算出の注目度): 4.296395082987112
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Vision-Language Models (L-VLMs) have demonstrated remarkable performance in various vision and language tasks, including visual question answering (VQA). However, their high computational cost makes them impractical for resource-constrained settings and inference-heavy applications. In contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer from a significant performance gap compared to their larger counterparts. In this work, we introduce the Model Parity Aligner (MPA), a novel framework designed to systematically improve S-VLMs by leveraging unlabeled images and effective knowledge transfer from L-VLMs. Instead of traditional knowledge distillation methods that rely on labeled training data, MPA employs a strategic parity-based approach that precisely identifies the knowledge disparities between S-VLMs and L-VLMs, and optimizes training by targeting only these disparities. We conduct extensive experiments on four diverse VQA benchmarks, namely TextVQA, ST-VQA, ChartQA, and OKVQA, each of which requires specialized reasoning capabilities such as text recognition, chart interpretation, and commonsense and factual understanding. Our results demonstrate that MPA consistently enhances the performance of S-VLMs on all benchmarks, reducing the performance gap while maintaining computational efficiency. We make our code publicly available.
- Abstract(参考訳): L-VLM(Large Vision-Language Models)は視覚的質問応答(VQA)を含む様々な視覚や言語タスクにおいて顕著な性能を示す。
しかし、その計算コストが高いため、リソース制約のある設定や推論に重きを置くアプリケーションでは実用的ではない。
対照的に、Small Vision-Language Models (S-VLMs) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本研究では,S-VLM を体系的に改良する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
ラベル付きトレーニングデータに依存する従来の知識蒸留法の代わりに、MPAは戦略パリティに基づくアプローチを採用し、S-VLMとL-VLMの知識格差を正確に識別し、これらの格差のみをターゲットとしてトレーニングを最適化する。
我々は、テキスト認識、チャート解釈、コモンセンスと事実理解といった特別な推論機能を必要とする4つのVQAベンチマーク、すなわち、TextVQA、ST-VQA、ChartQA、OKVQAについて広範な実験を行った。
その結果,MPAは全てのベンチマークにおいてS-VLMの性能を継続的に向上し,計算効率を維持しながら性能ギャップを小さくすることを示した。
コードを公開しています。
関連論文リスト
- Enhancing Scientific Visual Question Answering via Vision-Caption aware Supervised Fine-Tuning [26.89241254462218]
ビジョン・キャプション・アウェアメント・スーパーバイザード・ファインタニング (VCASFT) について紹介する。
VCASFTは、より小さなビジョン言語モデル(VLM)の性能を高めるために設計された学習パラダイムである
様々な言語、主題、分野にまたがる質問からなるScienceQAでベンチマークを行う。
低リソース言語におけるこの手法の有効性をさらに実証するため,2,245の高品質なHindiマルチモーダルQ&AペアからなるデータセットであるHiSciVQAを開発した。
論文 参考訳(メタデータ) (2025-09-20T11:07:36Z) - Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている
提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文 参考訳(メタデータ) (2025-06-09T16:55:32Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features [79.45405711339322]
生成型大規模マルチモーダルモデル(LMM)は、様々な視覚言語(VL)タスクで優れている。
高い性能にもかかわらず、LMMの生成出力は視覚言語分類タスクに特化していない。
LMMの潜在空間からマルチモーダル特徴抽出を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-11-28T18:55:41Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models [21.549122658275383]
視覚言語前訓練の最近の進歩は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
一般化能力と効率-性能トレードオフを評価するマルチタスクマルチディメンジョン・ベンチマークであるVision-Language Understanding Evaluationベンチマークを導入する。
論文 参考訳(メタデータ) (2022-05-30T16:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。