論文の概要: HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
- arxiv url: http://arxiv.org/abs/2506.21546v2
- Date: Sat, 28 Jun 2025 15:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 13:01:42.744244
- Title: HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
- Title(参考訳): HalluSegBench: セグメンテーション幻覚評価のための対実的視覚推論
- Authors: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou,
- Abstract要約: HalluSegBenchは、対物的視覚推論のレンズを通して視覚的接地における幻覚を評価するために特別に設計された最初のベンチマークである。
我々のベンチマークは、281のユニークなオブジェクトクラスにまたがる1340の対実例ペアからなる新しいデータセットで構成されています。
HalluSegBenchの最先端の視覚言語セグメンテーションモデルによる実験では、視覚駆動幻覚はラベル駆動のものよりもはるかに多いことが示されている。
- 参考スコア(独自算出の注目度): 2.2006360539727923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in vision-language segmentation has significantly advanced grounded visual understanding. However, these models often exhibit hallucinations by producing segmentation masks for objects not grounded in the image content or by incorrectly labeling irrelevant regions. Existing evaluation protocols for segmentation hallucination primarily focus on label or textual hallucinations without manipulating the visual context, limiting their capacity to diagnose critical failures. In response, we introduce HalluSegBench, the first benchmark specifically designed to evaluate hallucinations in visual grounding through the lens of counterfactual visual reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual instance pairs spanning 281 unique object classes, and a set of newly introduced metrics that quantify hallucination sensitivity under visually coherent scene edits. Experiments on HalluSegBench with state-of-the-art vision-language segmentation models reveal that vision-driven hallucinations are significantly more prevalent than label-driven ones, with models often persisting in false segmentation, highlighting the need for counterfactual reasoning to diagnose grounding fidelity.
- Abstract(参考訳): 視覚言語セグメンテーションの最近の進歩は、視覚的理解に大きな進歩をもたらした。
しかし、これらのモデルは画像内容に根拠のない物体のセグメンテーションマスクを作成したり、無関係な領域を誤ってラベル付けすることで幻覚を呈することが多い。
既存のセグメンテーション幻覚の評価プロトコルは主に、視覚的コンテキストを操作することなく、ラベルやテキストの幻覚に焦点を合わせ、重要な障害を診断する能力を制限する。
対物的視覚的推論のレンズを通して視覚的接地における幻覚を評価するために設計された最初のベンチマークであるHaluSegBenchを紹介する。
本ベンチマークでは,281のユニークなオブジェクトクラスにまたがる1340の対物インスタンスペアのデータセットと,視覚的コヒーレントなシーン編集の下で幻覚の感度を定量化する指標を新たに導入した。
HalluSegBenchの最先端の視覚言語セグメンテーションモデルによる実験では、視覚駆動の幻覚はラベル駆動のものよりもはるかに多く、しばしば偽セグメンテーションで持続するモデルが示され、基底の忠実さを診断する反実的推論の必要性が浮き彫りにされている。
関連論文リスト
- When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding [72.15848305976706]
大規模マルチモーダルモデル(LMM)は視覚知覚と推論において顕著な進歩を遂げた。
視覚的に曖昧で非意味的なシーンテキストに直面すると、コンテンツを正確に見つけて理解するのに苦労することが多い。
本稿では,2つの主要コンポーネントからなる学習自由な意味幻覚緩和フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T19:53:19Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - ESREAL: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models [6.014286500397164]
視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
論文 参考訳(メタデータ) (2024-03-24T14:21:06Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。