論文の概要: TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
- arxiv url: http://arxiv.org/abs/2503.10602v2
- Date: Fri, 21 Mar 2025 15:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:54:51.830469
- Title: TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
- Title(参考訳): TruthPrint:LVLMオブジェクトの幻覚を緩和する
- Authors: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu,
- Abstract要約: 幻覚は、LVLM(Large Vision-Language Models)における重要な課題の1つである。
最近の進歩は、隠れた状態のような内部状態が、生成された応答の「すべて真実性」を符号化していることを示している。
本稿では,まずLVLMデコーディングの真正な方向を学習し,次にLVLMデコーディング中に真正な誘導型推論時間介入を適用したTruthful-Guided Pre-Intervention (TruthPrInt)を提案する。
- 参考スコア(独自算出の注目度): 37.172777202461496
- License:
- Abstract: Object Hallucination (OH) has been acknowledged as one of the major trustworthy challenges in Large Vision-Language Models (LVLMs). Recent advancements in Large Language Models (LLMs) indicate that internal states, such as hidden states, encode the "overall truthfulness" of generated responses. However, it remains under-explored how internal states in LVLMs function and whether they could serve as "per-token" hallucination indicators, which is essential for mitigating OH. In this paper, we first conduct an in-depth exploration of LVLM internal states in relation to OH issues and discover that (1) LVLM internal states are high-specificity per-token indicators of hallucination behaviors. Moreover, (2) different LVLMs encode universal patterns of hallucinations in common latent subspaces, indicating that there exist "generic truthful directions" shared by various LVLMs. Based on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt) that first learns the truthful direction of LVLM decoding and then applies truthful-guided inference-time intervention during LVLM decoding. We further propose ComnHallu to enhance both cross-LVLM and cross-data hallucination detection transferability by constructing and aligning hallucination latent subspaces. We evaluate TruthPrInt in extensive experimental settings, including in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks. Experimental results indicate that TruthPrInt significantly outperforms state-of-the-art methods. Codes will be available at https://github.com/jinhaoduan/TruthPrInt.
- Abstract(参考訳): 物体幻覚(OH)は、LVLM(Large Vision-Language Models)において重要な課題の1つとして認識されている。
近年のLarge Language Models (LLM) の進歩は、隠れ状態のような内部状態が生成した応答の「すべて真実性」を符号化していることを示している。
しかし、LVLMの内部状態がどのように機能するかや、OHの緩和に必須である「一対一」幻覚の指標として機能するかは未解明のままである。
本稿では、まず、OH問題に関連するLVLM内部状態の詳細な探索を行い、(1)LVLM内部状態が幻覚行動の高比重指標であることを明らかにする。
さらに、(2)LVLMは、共通潜在部分空間における幻覚の普遍的なパターンを符号化し、様々なLVLMが共有する「汎用真理方向」が存在することを示す。
これらの発見に基づいて、まずLVLM復号の真正方向を学習し、次にLVLM復号中に真正誘導推論時間干渉を適用する真正導波前干渉(TruthPrInt)を提案する。
さらに,CumnHalluを用いて,幻覚潜伏部分空間の構築と整列を行うことにより,クロスLVLMとクロスデータ幻覚検出トランスファービリティを両立させる手法を提案する。
我々はTruthPrIntを、一般的なLVLMやOHベンチマークよりもドメイン内シナリオやドメイン外シナリオを含む広範な実験環境で評価する。
TruthPrIntは最先端の手法よりも優れていた。
コードはhttps://github.com/jinhaoduan/TruthPrInt.comで入手できる。
関連論文リスト
- Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection [12.049420092173616]
大型視覚言語モデル(LVLM)は、しばしば物体幻覚(OH)に悩まされる。
本稿では,安全でない部分空間に基づいてモデルの重みを効率よく編集する手法を提案する。
実験により,提案手法は,余分な推論コストを伴わずに複数のLVLMファミリー間でOHを効果的に緩和し,一般LVLMベンチマークで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2024-12-18T13:04:30Z) - A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。
実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-12T16:47:34Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。