論文の概要: Vision Verification Enhanced Fusion of VLMs for Efficient Visual Reasoning
- arxiv url: http://arxiv.org/abs/2603.12669v1
- Date: Fri, 13 Mar 2026 05:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.922291
- Title: Vision Verification Enhanced Fusion of VLMs for Efficient Visual Reasoning
- Title(参考訳): 効率的な視覚推論のためのVLMの高機能融合の視覚的検証
- Authors: Selim Furkan Tekin, Yichang Xu, Gaowen Liu, Ramana Rao Kompella, Margaret L. Loper, Ling Liu,
- Abstract要約: 視覚言語モデル(VLM)間の相補的推論を捉えるために焦点誤差の多様性を導入する。
核融合性能に価値を付加しない成分VLMを抽出するために遺伝的アルゴリズムを適用した。
我々のV3フュージョンアプローチは、視覚言語推論のための高性能なデュアル焦点分散フュージョン予測を生成することができる。
- 参考スコア(独自算出の注目度): 25.009382887048833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing number and diversity of Vision-Language Models (VLMs), many works explore language-based ensemble, collaboration, and routing techniques across multiple VLMs to improve multi-model reasoning. In contrast, we address the diverse model selection using both vision and language modalities. We introduce focal error diversity to capture complementary reasoning across VLMs and a CKA-based focal diversity metric (CKA-focal) to measure disagreement in their visual embeddings. On the constructed ensemble surface from a pool of candidate VLMs, we applied a Genetic Algorithm to effectively prune out those component VLMs that do not add value to the fusion performance. We identify the best combination for each task as well as fuse the outputs of each VLMs in the model pool, and show that heterogeneous models can capture epistemic uncertainty dynamically and mitigate hallucinations. Our V3Fusion approach is capable of producing dual focal-diversity fused predictions with high performance for vision-language reasoning, even when there is no majority consensus or the majority of VLMs make incorrect predictions. Extensive experiments validate V3Fusion on four popular VLM benchmarks (A-OKVQA, MMMU, MMMU-Pro, and OCR-VQA). The results show that V3Fusion outperforms the best-performing VLM on MMMU by 8.09% and MMMU-Pro by 4.87% gain in accuracy. For generative tasks, V3Fusion outperforms Intern-VL2-8b and Qwen2.5-VL-7b, the top-2 VLM performers on both A-OKVQA and OCR-VQA. Our code and datasets are available at https://github.com/sftekin/v3fusion.
- Abstract(参考訳): VLM(Vision-Language Models)の数と多様性により、複数のVLM間の言語ベースのアンサンブル、コラボレーション、ルーティング技術を探究し、マルチモデル推論を改善する。
対照的に、視覚と言語の両方を用いた多様なモデル選択に対処する。
我々は,VLM間の相補的推論を捉えるために焦点誤差の多様性を導入し,視覚的埋め込みにおける不一致を測定するために,CKAに基づく焦点偏差測定(CKA焦点)を導入した。
候補VLMのプールから構築したアンサンブル面に遺伝的アルゴリズムを適用し,融合性能に価値を与えない成分VLMを効果的に抽出した。
モデルプール内の各VLMの出力を融合させるだけでなく、各タスクに最適な組み合わせを同定し、異種モデルがてんかんの不確実性を動的に捉え、幻覚を緩和できることを示す。
我々のV3Fusionアプローチは、大半が一致していない場合や、VLMの大多数が誤った予測を行う場合であっても、視覚言語推論のための高性能なデュアル焦点拡散予測を生成することができる。
V3Fusionを4つのVLMベンチマーク(A-OKVQA、MMMU、MMMU-Pro、OCR-VQA)で検証した。
その結果,V3FusionはMMMUの最高性能VLMを8.09%,MMMU-Proを4.87%上回った。
生成タスクでは、V3Fusionは、A-OKVQAとOCR-VQAの両方でトップ2のVLMパフォーマーであるIntern-VL2-8bとQwen2.5-VL-7bを上回っている。
私たちのコードとデータセットはhttps://github.com/sftekin/v3fusion.comで公開されています。
関連論文リスト
- GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文 参考訳(メタデータ) (2025-06-18T17:59:49Z) - Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer [110.39467860530819]
視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。
我々は、よく設計された視覚言語プロジェクタを導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。
ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことにより、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
論文 参考訳(メタデータ) (2024-12-18T14:07:46Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - MM-R$^3$: On (In-)Consistency of Vision-Language Models (VLMs) [26.475993408532304]
本稿では,3つのタスク(質問文の表現,画像の復元,コンテキスト推論)に基づいて,SoTA視覚言語モデルの性能を解析する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
本稿では,命令間の不整合を最小限に抑えるために訓練されたアダプタモジュールの形式で,シンプルながら効果的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。