論文の概要: GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
- arxiv url: http://arxiv.org/abs/2603.10978v1
- Date: Wed, 11 Mar 2026 17:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.069441
- Title: GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
- Title(参考訳): GroundCount: 被写体検出機能付き接地視覚言語モデル
- Authors: Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique,
- Abstract要約: 視覚言語モデル(VLM)は、他の視覚的推論タスクよりも精度がかなり低いため、タスクのカウントにおいて持続的な幻覚を示す。
物体検出モデルから空間的接地を明示的に拡張して幻覚を緩和するフレームワークであるGroundCountを提案する。
- 参考スコア(独自算出の注目度): 19.262982037123447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) exhibit persistent hallucinations in counting tasks, with accuracy substantially lower than other visual reasoning tasks (excluding sentiment). This phenomenon persists even in state-of-the-art reasoning-capable VLMs. Conversely, CNN-based object detection models (ODMs) such as YOLO excel at spatial localization and instance counting with minimal computational overhead. We propose GroundCount, a framework that augments VLMs with explicit spatial grounding from ODMs to mitigate counting hallucinations. In the best case, our prompt-based augmentation strategy achieves 81.3% counting accuracy on the best-performing model (Ovis2.5-2B) - a 6.6pp improvement - while reducing inference time by 22% through elimination of hallucination-driven reasoning loops for stronger models. We conduct comprehensive ablation studies demonstrating that positional encoding is a critical component, being beneficial for stronger models but detrimental for weaker ones. Confidence scores, by contrast, introduce noise for most architectures and their removal improves performance in four of five evaluated models. We further evaluate feature-level fusion architectures, finding that explicit symbolic grounding via structured prompts outperforms implicit feature fusion despite sophisticated cross-attention mechanisms. Our approach yields consistent improvements across four of five evaluated VLM architectures (6.2--7.5pp), with one architecture exhibiting degraded performance due to incompatibility between its iterative reflection mechanisms and structured prompts. These results suggest that counting failures stem from fundamental spatial-semantic integration limitations rather than architecture-specific deficiencies, while highlighting the importance of architectural compatibility in augmentation strategies.
- Abstract(参考訳): 視覚言語モデル(VLM)は、他の視覚的推論タスク(感情を除く)よりも精度が著しく低い、タスクの数え上げにおいて永続的な幻覚を示す。
この現象は最先端の推論可能なVLMでも持続する。
逆に、YOLOのようなCNNベースのオブジェクト検出モデル(ODM)は、空間的局所化やインスタンスカウントにおいて最小の計算オーバーヘッドで優れている。
ODMによる空間的接地によりVLMを増強し,幻覚を和らげるフレームワークであるGroundCountを提案する。
ベストケースでは, 最良性能モデル(Ovis2.5-2B)で81.3%の精度を達成し, より強いモデルに対する幻覚駆動推論ループの除去により, 推論時間を22%削減した。
我々は、位置符号化が重要な要素であり、より強力なモデルには有益であるが、弱いモデルには有害であることを示す包括的なアブレーション研究を行う。
対照的に信頼性スコアは、ほとんどのアーキテクチャにノイズを導入し、5つの評価モデルのうち4つのパフォーマンスを改善します。
さらに,機能レベルの融合アーキテクチャを評価し,構造化による明示的な記号的接地が,高度なクロスアテンション機構にもかかわらず,暗黙的な特徴融合よりも優れていることを示す。
提案手法は、5つの評価されたVLMアーキテクチャ(6.2-7.5pp)のうち4つに一貫した改善をもたらす。
これらの結果は、アーキテクチャ固有の欠陥よりも、基本的な空間意味統合の限界が原因であり、拡張戦略におけるアーキテクチャの互換性の重要性を強調していることを示唆している。
関連論文リスト
- VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models [64.56065206447788]
ビジョン言語モデル(VLM)は、標準の高品質なデータセット上で強力なパフォーマンスを達成する。
VLM-RobustBenchはノイズ、ブラー、天気、デジタル、幾何学にまたがる49種類の拡張型にまたがるベンチマークである。
低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
論文 参考訳(メタデータ) (2026-03-06T10:58:02Z) - Task Complexity Matters: An Empirical Study of Reasoning in LLMs for Sentiment Analysis [2.1036545320600095]
推論能力を持つ大規模言語モデル(LLM)は、推論が言語タスク全体のパフォーマンスを普遍的に改善する、という魅力的な物語を生み出している。
7つのモデルファミリーにまたがる504構成を包括的に評価することで,この主張を検証した。
その結果, 推論の有効性は, タスク依存的であり, 課題の多い仮定であることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-27T14:49:05Z) - Toward More Reliable Artificial Intelligence: Reducing Hallucinations in Vision-Language Models [0.0]
視覚言語モデル(VLM)は、しばしば幻覚的コンテンツを生成するが、画像の内容に関する誤った主張である。
本稿では,不確実性誘導による視覚的再認識によってVLMの応答を反復的に改善することのできる,トレーニング不要な自己補正フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-08T13:58:46Z) - An Analysis of Architectural Impact on LLM-based Abstract Visual Reasoning: A Systematic Benchmark on RAVEN-FAIR [0.0]
GPT-4.1-Miniは全アーキテクチャで最高精度を達成した。
それぞれのモデルは、アーキテクチャ設計に対して異なる感度パターンを示し、推論の有効性がモデル固有のものであることを強調した。
論文 参考訳(メタデータ) (2025-11-14T22:50:22Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Entity-Aware Biaffine Attention Model for Improved Constituent Parsing with Reduced Entity Violations [0.0]
本稿では,構成構文解析のためのエンティティ対応バイファインアテンションモデルを提案する。
このモデルは、潜在的なフレーズに付加的なエンティティロールベクトルを使用することで、エンティティ情報をバイファインアテンションメカニズムに組み込む。
我々は、解析結果におけるエンティティ違反の程度を定量化するために、新しいメトリクスであるEntity Violating Rate(EVR)を導入する。
論文 参考訳(メタデータ) (2024-09-01T05:59:54Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。