論文の概要: HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
- arxiv url: http://arxiv.org/abs/2506.21546v1
- Date: Thu, 26 Jun 2025 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.242283
- Title: HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
- Title(参考訳): HalluSegBench: セグメンテーション幻覚評価のための対実的視覚推論
- Authors: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou,
- Abstract要約: HalluSegBenchは、対物的視覚推論のレンズを通して視覚的接地における幻覚を評価するために特別に設計された最初のベンチマークである。
我々のベンチマークは、281のユニークなオブジェクトクラスにまたがる1340の対実例ペアからなる新しいデータセットで構成されています。
HalluSegBenchの最先端の視覚言語セグメンテーションモデルによる実験では、視覚駆動幻覚はラベル駆動のものよりもはるかに多いことが示されている。
- 参考スコア(独自算出の注目度): 2.2006360539727923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in vision-language segmentation has significantly advanced grounded visual understanding. However, these models often exhibit hallucinations by producing segmentation masks for objects not grounded in the image content or by incorrectly labeling irrelevant regions. Existing evaluation protocols for segmentation hallucination primarily focus on label or textual hallucinations without manipulating the visual context, limiting their capacity to diagnose critical failures. In response, we introduce HalluSegBench, the first benchmark specifically designed to evaluate hallucinations in visual grounding through the lens of counterfactual visual reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual instance pairs spanning 281 unique object classes, and a set of newly introduced metrics that quantify hallucination sensitivity under visually coherent scene edits. Experiments on HalluSegBench with state-of-the-art vision-language segmentation models reveal that vision-driven hallucinations are significantly more prevalent than label-driven ones, with models often persisting in false segmentation, highlighting the need for counterfactual reasoning to diagnose grounding fidelity.
- Abstract(参考訳): 視覚言語セグメンテーションの最近の進歩は、視覚的理解に大きな進歩をもたらした。
しかし、これらのモデルは画像内容に根拠のない物体のセグメンテーションマスクを作成したり、無関係な領域を誤ってラベル付けすることで幻覚を呈することが多い。
既存のセグメンテーション幻覚の評価プロトコルは主に、視覚的コンテキストを操作することなく、ラベルやテキストの幻覚に焦点を合わせ、重要な障害を診断する能力を制限する。
対物的視覚的推論のレンズを通して視覚的接地における幻覚を評価するために設計された最初のベンチマークであるHaluSegBenchを紹介する。
本ベンチマークでは,281のユニークなオブジェクトクラスにまたがる1340の対物インスタンスペアのデータセットと,視覚的コヒーレントなシーン編集の下で幻覚の感度を定量化する指標を新たに導入した。
HalluSegBenchの最先端の視覚言語セグメンテーションモデルによる実験では、視覚駆動の幻覚はラベル駆動のものよりもはるかに多く、しばしば偽セグメンテーションで持続するモデルが示され、基底の忠実さを診断する反実的推論の必要性が浮き彫りにされている。
関連論文リスト
- A Survey of Multimodal Hallucination Evaluation and Detection [52.03164192840023]
MLLM(Multi-modal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なパラダイムとして登場した。
これらのモデルはしばしば幻覚に悩まされ、もっともらしいように見えるコンテンツを生成するが、入力内容や確立された世界的知識と矛盾する。
本調査では,イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)生成タスクを対象とした幻覚評価ベンチマークと検出方法の詳細なレビューを行う。
論文 参考訳(メタデータ) (2025-07-25T07:22:42Z) - Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images [6.48620624181578]
SHE(Sequence Hallucination Eradication)は,幻覚を検知し緩和する軽量なフレームワークである。
また,行動幻覚の重症度を定量化する新しい指標(BEACH)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:08:52Z) - When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding [72.15848305976706]
大規模マルチモーダルモデル(LMM)は視覚知覚と推論において顕著な進歩を遂げた。
視覚的に曖昧で非意味的なシーンテキストに直面すると、コンテンツを正確に見つけて理解するのに苦労することが多い。
本稿では,2つの主要コンポーネントからなる学習自由な意味幻覚緩和フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T19:53:19Z) - Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression [6.838584336878126]
大型視覚言語モデル (LVLM) はしばしば幻覚に悩まされ、視覚的文脈と一致しないテキストを生成する。
推論時間介入による幻覚の低減を目的とした既存の手法は、遅延を著しく増加させる。
本稿では,タスクに依存しない注意誘導型頭部抑制戦略であるSPINについて述べる。
論文 参考訳(メタデータ) (2025-05-22T09:00:57Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - HalCECE: A Framework for Explainable Hallucination Detection through Conceptual Counterfactuals in Image Captioning [5.130890556960832]
この研究は、広く使われている画像キャプターが示す幻覚現象の複雑さを掘り下げて、興味深いパターンを明らかにした。
採用された概念的反事実のバックボーンの決定論的かつ効率的な性質は、意味的に最小限の編集を提案することができる。
提案する幻覚検出フレームワークは,スタンドアローン数とは別に意味論的に意味のある編集を提供することにより,高い解釈が可能となる。
論文 参考訳(メタデータ) (2025-03-01T10:28:19Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - ESREAL: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models [6.014286500397164]
視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
論文 参考訳(メタデータ) (2024-03-24T14:21:06Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。