論文の概要: INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling
- arxiv url: http://arxiv.org/abs/2507.05056v1
- Date: Mon, 07 Jul 2025 14:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.458621
- Title: INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling
- Title(参考訳): インター:対話誘導サンプリングによる大規模視覚言語モデルにおける幻覚の緩和
- Authors: Xin Dong, Shichao Dong, Jin Wang, Jing Huang, Li Zhou, Zenghui Sun, Lihua Jing, Jingsong Lan, Xiaoyong Zhu, Bo Zheng,
- Abstract要約: 大規模視覚言語モデル(LVLM)における幻覚は、現実世界のアプリケーションに重大な課題をもたらす。
textbfInter: textbfInteraction Guidance Samplingを提案する。
- 参考スコア(独自算出の注目度): 22.022620124352603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations in large vision-language models (LVLMs) pose significant challenges for real-world applications, as LVLMs may generate responses that appear plausible yet remain inconsistent with the associated visual content. This issue rarely occurs in human cognition. We argue that this discrepancy arises from humans' ability to effectively leverage multimodal interaction information in data samples. Specifically, humans typically first gather multimodal information, analyze the interactions across modalities for understanding, and then express their understanding through language. Motivated by this observation, we conduct extensive experiments on popular LVLMs and obtained insights that surprisingly reveal human-like, though less pronounced, cognitive behavior of LVLMs on multimodal samples. Building on these findings, we further propose \textbf{INTER}: \textbf{Inter}action Guidance Sampling, a novel training-free algorithm that mitigate hallucinations without requiring additional data. Specifically, INTER explicitly guides LVLMs to effectively reapply their understanding of multimodal interaction information when generating responses, thereby reducing potential hallucinations. On six benchmarks including VQA and image captioning tasks, INTER achieves an average improvement of up to 3.4\% on five LVLMs compared to the state-of-the-art decoding strategy. The code will be released when the paper is accepted.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) における幻覚は、LVLMは、可視であるように見えるが、関連する視覚内容と矛盾しない応答を生成するため、現実世界のアプリケーションに重大な課題をもたらす。
この問題は人間の認知において稀に起こる。
この相違は、データサンプルにおけるマルチモーダル相互作用情報を効果的に活用する人間の能力から生じると我々は主張する。
具体的には、人間がまずマルチモーダル情報を収集し、理解するためにモダリティ間の相互作用を分析し、言語を通して理解を表現する。
本研究は,LVLMの多変量解析から,LVLMの認知行動が人間に似てはいるものの,認知行動が多変量標本上で驚くほど顕著であることを示す知見を得た。
これらの結果をもとに,新たな学習自由度アルゴリズムであるtextbf{INTER}: \textbf{Inter}action Guidance Samplingを提案する。
特に Inter は LVLM に対して,応答生成時のマルチモーダル相互作用情報の理解を効果的に再適用し,潜在的幻覚の低減を図っている。
VQAと画像キャプションタスクを含む6つのベンチマークにおいて、Interfaceは最先端のデコード戦略と比較して、5つのLVLMの平均3.4\%の改善を実現している。
コードは、論文が受理されたときに公開される。
関連論文リスト
- Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis [0.1984949535188529]
ビジョン言語モデル(VLM)は、画像処理のための事前訓練されたビジョンバックボーンと、クロスモーダルプロジェクタを組み込むことによって、この問題に対処する。
低線量放射線治療におけるマルチモーダル理解を高めるため,LLaVAモデルから微調整されたインテリジェントアシスタントを開発した。
論文 参考訳(メタデータ) (2025-01-26T02:48:01Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。