論文の概要: VisualNeedle: Benchmarking Active Visual Search in Information-Dense Scenes
- arxiv url: http://arxiv.org/abs/2605.26380v1
- Date: Mon, 25 May 2026 23:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.499782
- Title: VisualNeedle: Benchmarking Active Visual Search in Information-Dense Scenes
- Title(参考訳): VisualNeedle: 情報密度シーンにおけるアクティブなビジュアル検索のベンチマーク
- Authors: Jingru Chen, Yiming Liu, Mingtao Chen, Sijie Chen, Richeng Xuan, Liang Yang, Zhichao Hu, Fanyang Lu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、微粒な知覚ベンチマークにおいて90%以上の精度を達成することが報告されている。
以前の研究では、ベンチマークのパフォーマンスを向上する3つのショートカットが特定されている。
以上の結果から,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細な視覚検索が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 10.793484358165934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier multimodal large language models (MLLMs) have been reported to achieve over 90% accuracy on fine-grained perception benchmarks. However, such scores do not necessarily imply faithful use of visual evidence. Prior studies have identified three shortcuts that inflate benchmark performance. First, linguistic priors and lexical cues in questions often enable models to infer plausible answers without seeing the image. Second, coarse global semantics from the visual encoder can bypass fine-grained local details. Third, in some ``think-with-images'' benchmarks, corrupting the intermediate images returned by visual tools barely affects the final answer. These findings suggest that higher input resolution or larger question pools alone do not elicit genuine active visual search. To address this, we introduce VisualNeedle, a challenging, information-dense, and fine-grained benchmark for scenes where critical evidence is spatially constrained to minute regions and not discernible at a glance. We further propose a counterfactual crop-black setting, which replaces crops returned by tools with black images of the same size, to test whether tool-enabled performance truly relies on intermediate visual evidence. We evaluate 9 promninent MLLMs across three settings: no-tool, standard tool-enabled, and crop-black. No-tool accuracy stays below 20\%, and the best tool-enabled model reaches only 56.01\%, still trailing the 63.00% human majority-vote accuracy. These results reveal persistent limitations in fine-grained visual search, while the crop-black ablation confirms that success on VisualNeedle hinges on genuine intermediate visual evidence.
- Abstract(参考訳): Frontier Multimodal Large Language Model (MLLM) は、きめ細かい知覚ベンチマークにおいて90%以上の精度を達成することが報告されている。
しかし、このようなスコアは必ずしも視覚的証拠を忠実に用いているわけではない。
以前の研究では、ベンチマークのパフォーマンスを向上する3つのショートカットが特定されている。
第一に、疑問における言語的先行と語彙的手がかりは、しばしばモデルがその画像を見ることなく、妥当な答えを推測することができる。
第二に、ビジュアルエンコーダからの粗いグローバルセマンティクスは、きめ細かい局所的な詳細をバイパスすることができる。
第3に、いくつかの‘think-with-images’ベンチマークでは、ビジュアルツールによって返される中間イメージが最終的な答えにほとんど影響しない。
以上の結果から,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度の視力検索を行なわないことが示唆された。
これを解決するために,重要な証拠が微小な領域に空間的に制約され,一目で識別できないシーンに対して,難易度、情報密度、きめ細かなベンチマークであるVisualNeedleを紹介した。
さらに,ツール対応性能が中間的視覚的証拠に依存しているかどうかを確認するために,ツールが返した作物を同じ大きさの黒画像に置き換えた反ファクトリアルクロ設定を提案する。
ノットル,標準ツール対応,作物黒の3つの設定で,9つのプロムナントMLLMを評価した。
ノーツールの精度は20 %以下であり、最高のツール対応モデルは56.01 %に留まり、それでも63.00 %の人間の多数決投票精度に追随している。
これらの結果は、細粒度のビジュアルサーチにおいて永続的な制限が示され、一方、クロップブラックアブレーションは、VisualNeedleの成功が真の中間的なビジュアルエビデンスに依存していることを確認する。
関連論文リスト
- Seeing without Looking: Do Vision-Language Benchmarks Really Test Vision? [10.315515647818009]
ベンチマーク精度はしばしば、視覚言語モデルにおける基底的な視覚的理解を反映していると仮定される。
我々は、このミスマッチをオープンソースの視覚言語モデルで体系的に研究する。
VLMは視覚入力を取り入れているが、その予測はきめ細かい視覚的証拠の喪失にはあまり敏感ではない。
論文 参考訳(メタデータ) (2026-05-21T17:35:04Z) - Reducing Text Bias in Synthetically Generated MCQAs for VLMs in Autonomous Driving [1.6039614357284375]
MCQA(Multiple Choice Question Answering)ベンチマークは、運転タスクにおける視覚言語モデル(VLM)のパフォーマンスを測定するための確立された標準である。
このようなデータに基づいて微調整されたVLMは、視覚的な入力を伴わずに、人為的なベンチマークに匹敵する精度が得られることを示す。
論文 参考訳(メタデータ) (2026-01-28T20:30:26Z) - Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark [112.46338388724116]
このタスクでは、ターゲットオブジェクトをローカライズするだけでなく、推論パスを形成する中間オブジェクトを明示的に予測する必要がある。
この分野での研究を進めるために,(1)視覚的推論を評価するための人為的注釈付きベンチマークであるVRT-Bench,(2)推論トレースの質を評価するための新しい指標であるVRT-80k,(3)推論モデルトレーニングのための大規模データセットであるVRT-80kが提案されている。
論文 参考訳(メタデータ) (2025-12-04T18:55:34Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark [3.5018278981067685]
COREVQA (Crowd Observations and Reasoning Entailment) は5608の画像と合成生成された真/偽のステートメントペアのベンチマークである。
以上の結果から,トップパフォーマンスのVLMでも80%以下で精度が向上し,他のモデルも大幅に悪化した。
論文 参考訳(メタデータ) (2025-07-17T04:47:47Z) - Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。
TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文 参考訳(メタデータ) (2025-07-10T17:59:58Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。