論文の概要: Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding
- arxiv url: http://arxiv.org/abs/2605.06679v1
- Date: Wed, 22 Apr 2026 15:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.673457
- Title: Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding
- Title(参考訳): 幻滅を打破する: マルチモーダルデコーディングにおいてポジティブが否定的になるとき
- Authors: Yubo Jiang, Yitong An, Xin Yang, Abudukelimu Wuerkaixi, Xuxin Cheng, Fengying Xie, Zhiguo Jiang, Cao Liu, Ke Zeng, Haopeng Zhang,
- Abstract要約: トレーニング不要な推論フレームワークであるPND(Positive-and-Negative Decoding)を紹介する。
PNDは、視覚的忠実性を強制するために、デコードプロセスに直接介入する。
POPE、MME、CHAIRの実験は、再トレーニングなしに最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 30.74548183895207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) are frequently undermined by object hallucination, generating content that contradicts visual reality, due to an over-reliance on linguistic priors. We introduce Positive-and-Negative Decoding (PND), a training-free inference framework that intervenes directly in the decoding process to enforce visual fidelity. PND is motivated by our finding of an attention imbalance in VLMs, where visual features are under-weighted. Our framework introduces a dual-path contrast: a positive path that amplifies visual evidence and a negative path that constructs counterfactuals to penalize prior-dominant generation. By contrasting outputs from both paths during decoding, PND steers generation toward visually grounded results. Experiments on POPE, MME, and CHAIR demonstrate state-of-the-art performance without retraining.
- Abstract(参考訳): VLM(Vision-Language Models)は、言語的先行性への過度な依存のため、視覚的現実と矛盾するコンテンツを生成するオブジェクト幻覚によってしばしば弱められる。
PND(Positive-and-Negative Decoding)は、視覚的忠実さを強制するためにデコードプロセスに直接介入するトレーニング不要な推論フレームワークである。
PNDは視覚的特徴が過度に強調されるVLMにおける注意不均衡の発見に動機付けられている。
両経路の対比は, 視覚的証拠を増幅する正の経路と, 先行支配世代を罰する反事実を構成する負の経路である。
復号化時に両経路からの出力を対比することにより、PNDステアリングは視覚的に接地された結果に向けて生成される。
POPE、MME、CHAIRの実験は、再トレーニングなしに最先端のパフォーマンスを示す。
関連論文リスト
- Instruction-Evidence Contrastive Dual-Stream Decoding for Grounded Vision-Language Reasoning [3.944710336786154]
VLM(Vision-Language Models)は、命令の追従とオープンエンドの視覚言語推論において強力な性能を示す。
彼らはしばしば、視覚的証拠に弱く根ざした流動的な出力を生成する。
本稿では,世代間における言語的情報性と視覚的忠実性のバランスをとるためのデコードフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T16:18:31Z) - Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models [14.32953618311784]
Prefill-Time Intervention (PTI)は、プレフィル期間中に一度だけ介入する新しいステアリングパラダイムである。
PTIはモダリティを意識し、視覚的およびテキスト的表現の異なる方向を導出する。
論文 参考訳(メタデータ) (2026-04-28T13:42:27Z) - Global Context or Local Detail? Adaptive Visual Grounding for Hallucination Mitigation [31.028607494171336]
VLM(Vision-Language Models)は、物体の幻覚によってしばしば弱められる。
トレーニング不要な推論フレームワークであるPND(Positive-and-Negative Decoding)を紹介する。
PNDは、視覚的忠実性を強制するために、デコードプロセスに直接介入する。
論文 参考訳(メタデータ) (2026-04-27T12:23:00Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。
本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。
我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文 参考訳(メタデータ) (2025-08-27T08:01:03Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - OViP: Online Vision-Language Preference Learning for VLM Hallucination [44.14029765850719]
大型視覚言語モデル(LVLM)は幻覚に弱いままであり、しばしば視覚入力と一致しないコンテンツを生成する。
本稿では,モデル自身の幻覚に基づいて,コントラスト学習データを動的に構築するオンラインビジョン言語嗜好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T19:26:09Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。