Fugu-MT 論文翻訳(概要): Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction

論文の概要: Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction

arxiv url: http://arxiv.org/abs/2604.07914v1
Date: Thu, 09 Apr 2026 07:31:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.76902
Title: Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction
Title（参考訳）: 幻覚軽減のための大規模視線モデルにおける絡み合ったステアリングの緩和
Authors: Yuanhong Zhang, Zhaoyang Wang, Xin Zhang, Weizhan Zhang, Joey Tianyi Zhou,
Abstract要約: LVLM(Large Vision-Language Models)は、モーダルなタスク間で大きな成功を収めてきたが、幻覚によって妨げられている。既存の方法は幻覚を緩和するが、しばしば生成行動を変化させ、結果として出力が短くなり、トークンの分布がシフトする。幻覚緩和のための制御および選択的な潜伏介入を行う効果的なプラグアンドプレイフレームワークであるMESAを提案する。
参考スコア（独自算出の注目度）: 49.96701537295129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable success across cross-modal tasks but remain hindered by hallucinations, producing textual outputs inconsistent with visual content. Existing methods mitigate hallucinations but often alter generation behavior, resulting in shorter outputs and shifted token distributions, especially in latent space steering approaches. We identify that this issue stems from entangled steering signals, where suppressing hallucinations inadvertently disrupts the model's intrinsic generation behavior. To address this, we propose MESA, an effective plug-and-play framework that performs controlled and selective latent intervention for hallucination mitigation. Specifically, MESA targets hallucination-relevant responses while preserving the model's original token distribution, enabling effective hallucination reduction without compromising generation behavior. Extensive experiments across diverse generative and discriminative benchmarks demonstrate that MESA consistently reduces hallucinations while better preserving generation behavior, outperforming prior methods across multiple LVLM families.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、クロスモーダルなタスクにおいて顕著な成功を収めたが、幻覚によって妨げられ続けており、テキスト出力は視覚的内容と矛盾している。既存の方法は幻覚を緩和するが、しばしば生成の振る舞いを変え、結果として出力が短くなり、トークンの分布がシフトする。この問題は,幻覚の抑制がモデル固有の生成動作を不注意に破壊する,絡み合った操舵信号に由来すると確認した。そこで本研究では,覚醒緩和のための制御および選択的な潜伏介入を行う効果的なプラグアンドプレイフレームワークであるMESAを提案する。具体的には、モデル本来のトークン分布を保ちながら幻覚関連応答を目標とし、生成挙動を損なうことなく効果的な幻覚低減を可能にする。多様な生成的および識別的ベンチマークにわたる広範囲な実験により、MESAは幻覚を一貫して減少させ、生成挙動を良く保ち、複数のLVLMファミリーでの先行手法よりも優れていたことが示されている。

関連論文リスト

DHI: Leveraging Diverse Hallucination Induction for Enhanced Contrastive Factuality Control in Large Language Models [33.2779808039684]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる不正確な情報や偽造情報を生成する。 DHI(Diverse Hallucination induction)は,事前の注釈付きデータに頼らずにより広い範囲の幻覚を生成する新しい学習フレームワークである。 DHIは、複数の幻覚ベンチマークにまたがる他のコントラストなデコーディングベースのアプローチよりも大きなパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2026-01-03T10:55:41Z)
Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文参考訳（メタデータ） (2025-09-26T09:23:08Z)
Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors [8.089908150148554]
マルチモーダル大規模言語モデル (MLLM) は様々な視覚言語タスクにおいて顕著な成功を収めている。 MLLMは幻覚に非常に敏感であり、視覚的証拠とは相容れない内容を生み出す。本研究では,幻覚の緩和のための訓練不要で自己指導的な方法を提案する。
論文参考訳（メタデータ） (2025-09-26T07:24:28Z)
Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。 APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文参考訳（メタデータ） (2025-09-14T14:26:53Z)
Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering [83.63437999696954]
大規模言語モデル(MLLM)における幻覚は、ビデオ領域において重要かつ未適応な課題として持続する。本稿では,幻覚に敏感なモジュールを適応的に識別し,操作するビデオLLMのための時間認識型アクティベーションエンジニアリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T08:12:06Z)
Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文参考訳（メタデータ） (2024-05-24T08:46:31Z)
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文参考訳（メタデータ） (2024-03-27T16:04:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。