論文の概要: See Different, Think Better: Visual Variations Mitigating Hallucinations in LVLMs
- arxiv url: http://arxiv.org/abs/2507.22003v1
- Date: Tue, 29 Jul 2025 16:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.760115
- Title: See Different, Think Better: Visual Variations Mitigating Hallucinations in LVLMs
- Title(参考訳): LVLMの幻覚を緩和する視覚的変化
- Authors: Ziyun Dai, Xiaoqiang Li, Shaohua Zhang, Yuanchen Wu, Jide Li,
- Abstract要約: 本稿では,視覚中心の幻覚緩和フレームワークであるViHalluについて述べる。
視覚変化画像生成と視覚インストラクション構築により、視覚的セマンティックアライメントを強化する。
実験により、ViHalluは幻覚の傾向を著しく低減しつつ、モデルのきめ細かい視覚的理解を効果的に強化することが示された。
- 参考スコア(独自算出の注目度): 7.964168958699652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities in visual understanding and multimodal reasoning. However, LVLMs frequently exhibit hallucination phenomena, manifesting as the generated textual responses that demonstrate inconsistencies with the provided visual content. Existing hallucination mitigation methods are predominantly text-centric, the challenges of visual-semantic alignment significantly limit their effectiveness, especially when confronted with fine-grained visual understanding scenarios. To this end, this paper presents ViHallu, a Vision-Centric Hallucination mitigation framework that enhances visual-semantic alignment through Visual Variation Image Generation and Visual Instruction Construction. ViHallu introduces \textbf{\textit{visual variation images}} with controllable visual alterations while maintaining the overall image structure. These images, combined with carefully constructed visual instructions, enable LVLMs to better understand fine-grained visual content through fine-tuning, allowing models to more precisely capture the correspondence between visual content and text, thereby enhancing visual-semantic alignment. Extensive experiments on multiple benchmarks show that ViHallu effectively enhances models' fine-grained visual understanding while significantly reducing hallucination tendencies. Furthermore, we release ViHallu-Instruction, a visual instruction dataset specifically designed for hallucination mitigation and visual-semantic alignment. Code is available at https://github.com/oliviadzy/ViHallu.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚的理解とマルチモーダル推論において顕著な能力を示す。
しかし、LVLMは幻覚現象を頻繁に示し、得られた視覚内容と矛盾を示すテキスト応答として現れる。
既存の幻覚緩和法は主にテキスト中心であり、視覚・セマンティックアライメントの課題は、特にきめ細かい視覚的理解シナリオに直面する場合、その効果を著しく制限する。
この目的のために,視覚変化画像生成と視覚指導構築による視覚・意味的アライメントを強化する視覚中心の幻覚緩和フレームワークであるViHalluを提案する。
ViHalluは、全体的なイメージ構造を維持しながら、制御可能な視覚的変化を伴う、 \textbf{\textit{visual variation images}}を導入している。
これらの画像と注意深く構築された視覚的指示を組み合わせることで、LVLMは微調整によってよりきめ細かな視覚的内容をよりよく理解し、モデルが視覚的内容とテキストの対応をより正確に把握し、視覚的・意味的なアライメントを向上させることができる。
複数のベンチマークでの大規模な実験により、ViHalluは幻覚の傾向を著しく減少させながら、モデルのきめ細かい視覚的理解を効果的に強化することが示された。
さらに,幻覚緩和と視覚・セマンティックアライメントに特化して設計された視覚指導データセットViHallu-Instructionをリリースする。
コードはhttps://github.com/oliviadzy/ViHallu.comで入手できる。
関連論文リスト
- Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination [14.25488878224697]
本稿では、類似した視覚幻覚を利用する訓練不要の手法であるPensieveを提案する。
Pensieveは、抽出されたスコアを適応的にスケーリングすることで、視覚とテキストの両方のブランチからエラーに対処する効果を緩和する。
論文 参考訳(メタデータ) (2024-03-21T13:49:42Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。