論文の概要: Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.17871v1
- Date: Thu, 19 Feb 2026 22:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.169097
- Title: Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models
- Title(参考訳): 視覚言語モデルの細粒度知識能力の理解
- Authors: Dhruba Ghosh, Yuhui Zhang, Ludwig Schmidt,
- Abstract要約: 視覚言語モデル(VLM)は、視覚的推論、文書理解、マルチモーダル対話など、幅広い視覚的質問応答ベンチマークで大きく進歩している。
最近の研究では、これらのモデルが、きめ細かい視覚的知識をテストする従来の画像分類ベンチマークに後れを取っていることが示されている。
我々は、細粒度分類ベンチマークにおいて、多数の最近のVLMをテストし、細粒度知識と他のビジョンベンチマークとの切り離しにおける潜在的な要因を特定した。
- 参考スコア(独自算出の注目度): 42.79282247484499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have made substantial progress across a wide range of visual question answering benchmarks, spanning visual reasoning, document understanding, and multimodal dialogue. These improvements are evident in a wide range of VLMs built on a variety of base models, alignment architectures, and training data. However, recent works show that these models trail behind in traditional image classification benchmarks, which test fine-grained visual knowledge. We test a large number of recent VLMs on fine-grained classification benchmarks and identify potential factors in the disconnect between fine-grained knowledge and other vision benchmarks. Through a series of ablation experiments, we find that using a better LLM improves all benchmark scores equally, while a better vision encoder disproportionately improves fine-grained classification performance. Furthermore, we find that the pretraining stage is also vital to fine-grained performance, particularly when the language model weights are unfrozen during pretraining. These insights pave the way for enhancing fine-grained visual understanding and vision-centric capabilities in VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的推論、文書理解、マルチモーダル対話など、幅広い視覚的質問応答ベンチマークで大きく進歩している。
これらの改善は、様々なベースモデル、アライメントアーキテクチャ、トレーニングデータ上に構築された幅広いVLMにおいて明らかである。
しかし、最近の研究では、これらのモデルが、きめ細かい視覚的知識をテストする従来の画像分類ベンチマークに遅れを取っていることが示されている。
我々は、細粒度分類ベンチマークにおいて、多数の最近のVLMをテストし、細粒度知識と他のビジョンベンチマークとの切り離しにおける潜在的な要因を特定した。
一連のアブレーション実験により、より優れたLCMを用いることで全てのベンチマークスコアが等しく改善され、優れたビジョンエンコーダによりきめ細かい分類性能が向上することがわかった。
さらに,事前学習の段階では,特に言語モデルの重みが凍結していない場合には,事前学習の段階がきめ細かなパフォーマンスに欠かせないことが判明した。
これらの洞察は、VLMにおけるきめ細かい視覚的理解と視覚中心の能力を高めるための道を開く。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models [51.84752285423123]
本稿では,ビジョンエンコーダの事前知識がMLLM性能に与える影響を定量化するために,新しい計量である$Rank_e$を導入する。
視覚エンコーダレベルでの事前知識を明確に組み込んだ2段階トレーニングフレームワークであるVisPRE(Vision Prior Remediation)を提案する。
実験の結果,視覚エンコーダの事前知識の増大はMLLMの視覚理解能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-23T11:33:09Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。