論文の概要: GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity
- arxiv url: http://arxiv.org/abs/2508.19972v1
- Date: Wed, 27 Aug 2025 15:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.682872
- Title: GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity
- Title(参考訳): GLSim:グローバル-ローカル類似性によるLVLMの物体幻覚検出
- Authors: Seongheon Park, Yixuan Li,
- Abstract要約: トレーニング不要なオブジェクト幻覚検出フレームワークであるGLSimを紹介する。
我々は,GLSimが優れた検出性能を達成し,高いマージンで競争ベースラインを上回っていることを示す。
- 参考スコア(独自算出の注目度): 19.514794338132123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object hallucination in large vision-language models presents a significant challenge to their safe deployment in real-world applications. Recent works have proposed object-level hallucination scores to estimate the likelihood of object hallucination; however, these methods typically adopt either a global or local perspective in isolation, which may limit detection reliability. In this paper, we introduce GLSim, a novel training-free object hallucination detection framework that leverages complementary global and local embedding similarity signals between image and text modalities, enabling more accurate and reliable hallucination detection in diverse scenarios. We comprehensively benchmark existing object hallucination detection methods and demonstrate that GLSim achieves superior detection performance, outperforming competitive baselines by a significant margin.
- Abstract(参考訳): 大きな視覚言語モデルにおけるオブジェクト幻覚は、現実世界のアプリケーションに安全な配置を行う上で大きな課題となる。
近年の研究では、対象幻覚の可能性を推定するために、対象レベルの幻覚スコアが提案されているが、これらの手法は通常、検出の信頼性を制限するグローバルな視点または局所的な視点を採用する。
本稿では、画像とテキストのモダリティ間の相補的グローバルおよび局所的な埋め込み類似性信号を活用し、多様なシナリオにおいてより正確で信頼性の高い幻覚検出を可能にする、新しいトレーニング不要な物体幻覚検出フレームワークであるGLSimを紹介する。
我々は,既存の物体幻覚検出法を総合的にベンチマークし,GLSimが優れた検出性能を達成し,競争基準線を著しく上回ることを示す。
関連論文リスト
- What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。
これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。
実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文 参考訳(メタデータ) (2025-08-03T03:11:48Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention [49.00976337577678]
LVLM(Large Vision-Language Models)は、しばしば物体の幻覚に遭遇する。
物体幻覚の根本原因の1つは、識別的画像の特徴に対する注意不足にある。
幻覚を緩和するためのグローバル・ローカル・アテンション・アセンブリー(AGLA)を提案する。
論文 参考訳(メタデータ) (2024-06-18T15:38:41Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。