論文の概要: Decoding by Perturbation: Mitigating MLLM Hallucinations via Dynamic Textual Perturbation
- arxiv url: http://arxiv.org/abs/2604.12424v1
- Date: Tue, 14 Apr 2026 08:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.329585
- Title: Decoding by Perturbation: Mitigating MLLM Hallucinations via Dynamic Textual Perturbation
- Title(参考訳): 摂動による復号:動的テクスチャ摂動によるMLLM幻覚の緩和
- Authors: Sihang Jia, Shuliang Liu, Songbo Yang, Yibo Yan, Xin Zou, Xuming Hu,
- Abstract要約: Decode by Perturbation (DeP)は、事前誘発幻覚を緩和するトレーニング不要のフレームワークである。
動的プローブを用いて、多レベルテキストの摂動を潜在言語に応用する。
大規模な実験により、DePは幻覚を効果的に減らし、複数のベンチマークで優れたパフォーマンスを達成することが確認された。
- 参考スコア(独自算出の注目度): 36.57014987764294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models frequently suffer from inference hallucinations, partially stemming from language priors dominating visual evidence. Existing training-free mitigation methods either perturb the visual representation and deviate from the natural image distribution, or enforce intrusive manipulations that compromise the model's inherent generative fluency. We introduce a novel perspective that multimodal hallucination manifests as the hypersensitivity of visual grounding to textual phrasing during the decoding phase. Building on this insight, we propose Decoding by Perturbation (DeP), a training-free framework mitigating prior-induced hallucinations via controlled textual interventions. DeP employs a dynamic probe applying multi-level textual perturbations to elicit latent language priors. Leveraging attention variance, it enhances stable evidence regions while suppressing suspicious noise in the feature space. Furthermore, it constructs an interpretable prior drift direction using logits statistics to counteract probability biases from textual co-occurrences. Extensive experiments confirm DeP effectively reduces hallucinations and achieves superior performance across multiple benchmarks.
- Abstract(参考訳): マルチモーダル大言語モデルは、しばしば推論の幻覚に悩まされ、部分的には、視覚的証拠を支配している言語先行から生じる。
既存の訓練のない緩和法は、視覚的表現を摂動させ、自然なイメージの分布から逸脱させるか、またはモデル固有の生成流布を乱す侵入的操作を強制する。
そこで本研究では,マルチモーダル幻覚が,復号段階における視覚的接地感の過敏性を表わす新しい視点を提案する。
この知見に基づいて、制御されたテキスト介入による事前幻覚を緩和するトレーニング不要なフレームワークであるDecode by Perturbation (DeP)を提案する。
DePは動的プローブを用いて、多レベルテキストの摂動を潜在言語に適応させる。
注意分散を利用して、特徴空間における疑わしいノイズを抑えながら、安定したエビデンス領域を強化する。
さらに、ロジット統計を用いた解釈可能な事前ドリフト方向を構築し、テキストの共起による確率バイアスに対処する。
大規模な実験により、DePは幻覚を効果的に減らし、複数のベンチマークで優れたパフォーマンスを達成することが確認された。
関連論文リスト
- Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction [49.96701537295129]
LVLM(Large Vision-Language Models)は、モーダルなタスク間で大きな成功を収めてきたが、幻覚によって妨げられている。
既存の方法は幻覚を緩和するが、しばしば生成行動を変化させ、結果として出力が短くなり、トークンの分布がシフトする。
幻覚緩和のための制御および選択的な潜伏介入を行う効果的なプラグアンドプレイフレームワークであるMESAを提案する。
論文 参考訳(メタデータ) (2026-04-09T07:31:27Z) - ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration [71.21097024566285]
LVLM(Large-Language Models)はしばしば深刻な幻覚に悩まされる。
既存の緩和戦略は、視覚的焦点を強化するか、強い先行を抑えるために、言語的、単一段階の状態に依存している。
本研究では,適応的な文脈情報の統合を通じて幻覚を緩和する学習自由推論介入手法であるAdaptive Context in VisionTegration (ACT)を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:49:50Z) - Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - OViP: Online Vision-Language Preference Learning for VLM Hallucination [44.14029765850719]
大型視覚言語モデル(LVLM)は幻覚に弱いままであり、しばしば視覚入力と一致しないコンテンツを生成する。
本稿では,モデル自身の幻覚に基づいて,コントラスト学習データを動的に構築するオンラインビジョン言語嗜好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T19:26:09Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。