論文の概要: Mitigating Multimodal Hallucination via Phase-wise Self-reward
- arxiv url: http://arxiv.org/abs/2604.17982v1
- Date: Mon, 20 Apr 2026 09:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.781636
- Title: Mitigating Multimodal Hallucination via Phase-wise Self-reward
- Title(参考訳): 位相的自己回帰によるマルチモーダル幻覚の緩和
- Authors: Yu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang,
- Abstract要約: 我々は、外部の監督なしに推論時に動的幻覚を緩和できる新しい自己回帰フレームワークを導入する。
textbfPSRD (textbfPhase-wise textbfSelf-textbfReward textbfDecoding) は、位相方向の自己回帰信号で導かれるオンライン幻覚補正用である。
- 参考スコア(独自算出の注目度): 37.441718699530526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose \textbf{PSRD} (\textbf{Phase-wise \textbf{S}elf-\textbf{R}eward \textbf{D}ecoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.
- Abstract(参考訳): LVLM(Large Vision-Language Models)はまだ視覚幻覚に苦しむが、生成した応答は視覚入力と矛盾しない。
既存の手法は、大量の計算オーバーヘッドを発生させる微調整のために大規模な注釈付きデータに依存するか、幻覚発生の動的な性質を無視する静的なポストホック戦略を用いる。
これらの問題に対処するため,我々は,外部の監督なしに,推論時に動的幻覚を緩和する,新たな自己回帰フレームワークを導入する。
経験的側面から,視覚幻覚は各意味相の開始時にピークとなる相の動的パターンを示すことが明らかとなった。
これらの知見に基づいて、位相方向の自己回帰信号で導かれるオンライン幻覚補正のための \textbf{PSRD} (\textbf{Phase-wise \textbf{S}elf-\textbf{R}eward \textbf{D}ecoding) を提案する。
復号化時に繰り返し自己評価を行うコストを低減するため,LVLMからの幻覚誘導信号を軽量な報酬モデルに蒸留する。
報酬モデルはその後、復号処理中の目標介入に対するオンザフライガイダンスを提供し、正確な幻覚抑制を可能にする。
提案したPSRDは、LLaVA-1.5-7Bの幻覚率を50.0%削減し、4つのLVLMに対する5つの幻覚評価ベンチマークにおいて、既存のポストホック法を一貫して上回っている。
さらなる分析によりPSRDは幻覚伝播を効果的に緩和し、強い性能と推論効率の間の高い制御可能なトレードオフを実現することが確認される。
関連論文リスト
- Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation [38.43656456659151]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な性能を達成した。
彼らはまだ幻覚に悩まされており、視覚的な入力と矛盾するテキストを生成し、現実世界のアプリケーションに重大なリスクを及ぼしている。
LVLM における幻覚を緩和するために,SAE 由来の潜伏方向に基づくプラグアンドプレイ方式である SAE Latent Directions (SSL) を用いたステアリング LVLM を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:45:45Z) - Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。
実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文 参考訳(メタデータ) (2025-04-16T14:50:25Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。