論文の概要: VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?
- arxiv url: http://arxiv.org/abs/2603.07888v1
- Date: Mon, 09 Mar 2026 02:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.339607
- Title: VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?
- Title(参考訳): VLM-SubtleBench: VLMは人間レベルのサブトル比較推論からどのくらい遠いのか?
- Authors: Minkyu Kim, Sangheon Lee, Dongmin Park,
- Abstract要約: 本稿では,視覚言語モデル(VLM)を微妙な比較推論で評価するためのベンチマークであるVLM-SubtleBenchを紹介する。
私たちのベンチマークでは、属性、状態、感情、テンポラル、空間、存在、量、品質、視点、アクションの10種類の異なるタイプをカバーしています。
広範に評価することで、モデルと人的パフォーマンスの系統的なギャップを、異なるタイプとドメインにまたがって明らかにする。
- 参考スコア(独自算出の注目度): 10.388607097270762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to distinguish subtle differences between visually similar images is essential for diverse domains such as industrial anomaly detection, medical imaging, and aerial surveillance. While comparative reasoning benchmarks for vision-language models (VLMs) have recently emerged, they primarily focus on images with large, salient differences and fail to capture the nuanced reasoning required for real-world applications. In this work, we introduce VLM-SubtleBench, a benchmark designed to evaluate VLMs on subtle comparative reasoning. Our benchmark covers ten difference types - Attribute, State, Emotion, Temporal, Spatial, Existence, Quantity, Quality, Viewpoint, and Action - and curate paired question-image sets reflecting these fine-grained variations. Unlike prior benchmarks restricted to natural image datasets, our benchmark spans diverse domains, including industrial, aerial, and medical imagery. Through extensive evaluation of both proprietary and open-source VLMs, we reveal systematic gaps between model and human performance across difference types and domains, and provide controlled analyses highlighting where VLMs' reasoning sharply deteriorates. Together, our benchmark and findings establish a foundation for advancing VLMs toward human-level comparative reasoning.
- Abstract(参考訳): 視覚的に類似した画像の微妙な違いを区別する能力は、産業的異常検出、医用画像、航空監視といった様々な領域に不可欠である。
視覚言語モデル(VLM)の比較推論ベンチマークが最近登場したが、それらは主に大きく、健全な差があり、現実世界のアプリケーションに必要な微妙な推論を捉えていない画像に焦点を当てている。
本稿では,VLM-SubtleBenchを微妙な比較推論で評価するためのベンチマークとして紹介する。
我々のベンチマークでは、属性、状態、感情、テンポラル、空間、存在、量、品質、視点、アクションの10種類の異なるタイプをカバーし、これらのきめ細かいバリエーションを反映したペアの質問画像をキュレートします。
これまでのベンチマークでは、自然画像のデータセットに制限されていたが、我々のベンチマークは、産業、航空、医療画像など、さまざまな領域にまたがっている。
プロプライエタリなVLMとオープンソースなVLMの両方を広範囲に評価することにより、モデルと人的パフォーマンスの差異を、異なるタイプとドメイン間で明らかにし、VLMの推論が著しく低下する箇所を制御した分析結果を提供する。
我々のベンチマークと調査結果は、人間レベルの比較推論に向けてVLMを前進させる基盤を確立した。
関連論文リスト
- Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models [42.79282247484499]
視覚言語モデル(VLM)は、視覚的推論、文書理解、マルチモーダル対話など、幅広い視覚的質問応答ベンチマークで大きく進歩している。
最近の研究では、これらのモデルが、きめ細かい視覚的知識をテストする従来の画像分類ベンチマークに後れを取っていることが示されている。
我々は、細粒度分類ベンチマークにおいて、多数の最近のVLMをテストし、細粒度知識と他のビジョンベンチマークとの切り離しにおける潜在的な要因を特定した。
論文 参考訳(メタデータ) (2026-02-19T22:07:29Z) - More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - VLIC: Vision-Language Models As Perceptual Judges for Human-Aligned Image Compression [83.36460501519203]
Vision-Language Models for Image Compression (VLIC) は、拡散に基づく画像圧縮システムである。
このシステムをVLM判定で校正すると、データセットに応じて人力による視覚的圧縮に対して、競争力や最先端のパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2025-12-17T18:52:55Z) - Can Vision-Language Models Count? A Synthetic Benchmark and Analysis of Attention-Based Interventions [0.4934817254755008]
視覚言語モデル(VLM)は、画像の視覚特性に関するクエリに応答する際に、トレーニング中に学んだ固有のバイアスに依存することが多い。
本研究は,画像としての性能がどう変化するかを判断し,特性変化を促すための,総合的なベンチマークデータセットと評価フレームワークを構築した。
我々は,異なるレイヤにおける視覚的トークンに注目する,注意に基づく介入を実施し,その効果を視覚的条件によって評価する。
論文 参考訳(メタデータ) (2025-11-21T19:18:41Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - A Unified Framework and Dataset for Assessing Societal Bias in Vision-Language Models [9.025958469582363]
視覚言語モデル(VLM)における性別・人種・年齢バイアスを統一的に評価するための枠組みを提案する。
我々は、異なる専門分野の性別、人種、年齢情報を意図的に隠蔽する高品質な合成データセットを生成する。
このデータセットには、各専門職の行動に基づく記述が含まれており、視覚言語モデル(VLM)における社会的バイアスを評価するためのベンチマークとして機能している。
論文 参考訳(メタデータ) (2024-02-21T09:17:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。