論文の概要: What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models?
- arxiv url: http://arxiv.org/abs/2508.06530v1
- Date: Sun, 03 Aug 2025 03:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.413486
- Title: What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models?
- Title(参考訳): 視覚・言語モデルにおける物体の幻覚評価のための「Good」ディクタとは何か?
- Authors: Ming-Kun Xie, Jia-Hao Xiao, Gang Niu, Lei Feng, Zhiqiang Kou, Min-Ling Zhang, Masashi Sugiyama,
- Abstract要約: 本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。
これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。
実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
- 参考スコア(独自算出の注目度): 95.46087552542998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs), empowered by the success of Large Language Models (LLMs), have achieved impressive performance across domains. Despite the great advances in LVLMs, they still suffer from the unavailable object hallucination issue, which tends to generate objects inconsistent with the image content. The most commonly used Polling-based Object Probing Evaluation (POPE) benchmark evaluates this issue by sampling negative categories according to category-level statistics, \textit{e.g.}, category frequencies and co-occurrence. However, with the continuous advancement of LVLMs, the POPE benchmark has shown diminishing effectiveness in assessing object hallucination, as it employs a simplistic sampling strategy that overlooks image-specific information and restricts distractors to negative object categories only. In this paper, we introduce the Hallucination searching-based Object Probing Evaluation (HOPE) benchmark, aiming to generate the most misleading distractors (\textit{i.e.}, non-existent objects or incorrect image descriptions) that can trigger hallucination in LVLMs, which serves as a means to more rigorously assess their immunity to hallucination. To explore the image-specific information, the content-aware hallucination searching leverages Contrastive Language-Image Pre-Training (CLIP) to approximate the predictive behavior of LVLMs by selecting negative objects with the highest predicted likelihood as distractors. To expand the scope of hallucination assessment, the description-based hallucination searching constructs highly misleading distractors by pairing true objects with false descriptions. Experimental results show that HOPE leads to a precision drop of at least 9\% and up to 23\% across various state-of-the-art LVLMs, significantly outperforming POPE in exposing hallucination vulnerabilities. The code is available at https://github.com/xiemk/HOPE.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、LLM(Large Language Models)の成功によって強化され、ドメイン間で印象的なパフォーマンスを実現している。
LVLMの大幅な進歩にもかかわらず、画像の内容と矛盾するオブジェクトを生成する傾向にある不利用可能なオブジェクト幻覚の問題に悩まされている。
最もよく使われているPolling-based Object Probing Evaluation (POPE) ベンチマークは、カテゴリレベルの統計値、 \textit{e g }、カテゴリ頻度、共起値に基づいて負のカテゴリをサンプリングすることによってこの問題を評価する。
しかし、LVLMの継続的な進歩により、POPEベンチマークは、画像特有の情報を見落とし、乱れを負の対象カテゴリのみに制限する単純なサンプリング戦略を採用するため、オブジェクト幻覚を評価する効果が低下している。
本稿では,Halucination search-based Object Probing Evaluation (HOPE)ベンチマークを導入し,幻覚に対する免疫性をより厳格に評価する手段として,LVLMにおける幻覚を誘発する最も誤解を招く物体(非存在的物体や不正確な画像記述)を生成することを目的とする。
画像固有情報を探索するために、コンテンツ認識幻覚検索は、Contrastive Language-Image Pre-Training (CLIP) を利用してLVLMの予測挙動を推定する。
幻覚評価の範囲を拡大するために、記述に基づく幻覚探索は、真の物体と偽の記述とをペアにすることで、非常に誤解を招く気晴らしを発生させる。
実験の結果,HOPEは様々なLVLMにおいて,少なくとも9\%,最大23\%の精度低下をもたらし,幻覚の脆弱性の暴露においてPOPEよりも有意に優れていた。
コードはhttps://github.com/xiemk/HOPEで公開されている。
関連論文リスト
- SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - Evaluating Hallucination in Large Vision-Language Models based on Context-Aware Object Similarities [5.602853217226167]
大規模視覚言語モデル(LVLM)における物体幻覚評価のための新しいアプローチである文脈認識オブジェクト類似性(CAOS)を提案する。
CAOSは、オブジェクト統計とキャプション内のオブジェクト間の意味的関係を統合する。
これを解決するために、言語モデルに基づくオブジェクト認識を用いて、潜在的にドメイン外幻覚オブジェクトを検出する。
論文 参考訳(メタデータ) (2025-01-25T03:03:18Z) - Multi-Object Hallucination in Vision-Language Models [28.135215173793785]
大型視覚言語モデル(LVLM)は、しばしば物体幻覚に悩まされる。
幻覚行動は、データ固有の要因、サリエンスと周波数、本質的なモデル行動に影響される。
論文 参考訳(メタデータ) (2024-07-08T17:59:57Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。