Fugu-MT 論文翻訳(概要): Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning

論文の概要: Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning

arxiv url: http://arxiv.org/abs/2412.11124v1
Date: Sun, 15 Dec 2024 09:10:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.01992
Title: Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning
Title（参考訳）: ボトムアップホロスティック推論によるマルチモーダルLLM幻覚の圧縮
Authors: Shengqiong Wu, Hao Fei, Liangming Pan, William Yang Wang, Shuicheng Yan, Tat-Seng Chua,
Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
参考スコア（独自算出の注目度）: 151.4060202671114
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advancements in multimodal large language models (MLLMs) have shown unprecedented capabilities in advancing various vision-language tasks. However, MLLMs face significant challenges with hallucinations, and misleading outputs that do not align with the input data. While existing efforts are paid to combat MLLM hallucinations, several pivotal challenges are still unsolved. First, while current approaches aggressively focus on addressing errors at the perception level, another important type at the cognition level requiring factual commonsense can be overlooked. In addition, existing methods might fall short in finding a more effective way to represent visual input, which is yet a key bottleneck that triggers visual hallucinations. Moreover, MLLMs can frequently be misled by faulty textual inputs and cause hallucinations, while unfortunately, this type of issue has long been overlooked by existing studies. Inspired by human intuition in handling hallucinations, this paper introduces a novel bottom-up reasoning framework. Our framework systematically addresses potential issues in both visual and textual inputs by verifying and integrating perception-level information with cognition-level commonsense knowledge, ensuring more reliable outputs. Extensive experiments demonstrate significant improvements in multiple hallucination benchmarks after integrating MLLMs with the proposed framework. In-depth analyses reveal the great potential of our methods in addressing perception- and cognition-level hallucinations.
Abstract（参考訳）: マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、様々な視覚言語タスクを前進させる前例のない能力を示している。しかし、MLLMは幻覚や入力データと一致しない誤った出力で重大な課題に直面している。 MLLM幻覚と戦うために既存の努力が支払われているが、いくつかの重要な課題はまだ解決されていない。第一に、現在のアプローチでは、認識レベルでエラーに積極的に対処することに重点を置いているが、認識レベルでは、事実のコモンセンスを必要とする別の重要なタイプが見過ごされる可能性がある。さらに、既存の手法は視覚的な入力を表現するためのより効果的な方法を見つけるのに不足する可能性がある。さらに、MLLMは、欠陥のあるテキスト入力によってしばしば誤解され、幻覚を引き起こすことがあるが、残念ながら、この種の問題は、既存の研究によって長い間見過ごされてきた。幻覚に対する人間の直感に触発された本研究では,新たなボトムアップ推論フレームワークを提案する。本フレームワークは,認識レベルの情報と認識レベルのコモンセンス知識を検証・統合し,より信頼性の高い出力を確保することにより,視覚的およびテキスト的入力の潜在的な問題に体系的に対処する。大規模な実験により,MLLMをフレームワークに組み込んだ複数の幻覚ベンチマークが大幅に改善された。深部分析により,認知レベルと認知レベルの幻覚に対処する手法の可能性が明らかにされた。

関連論文リスト

HalluShift++: Bridging Language and Vision through Internal Representation Shifts for Hierarchical Hallucinations in MLLMs [17.130698952440316]
大規模言語モデル(MLLM)における幻覚は、モデル開発プロセスにおいてますます重要になっている。本稿では,幻覚がMLLMの内部層力学における測定可能な不規則性として現れるという仮説を提案する。このような修正を導入することで、textsctextscHalluShift++は、テキストベースの大規模言語モデルからの幻覚検出の有効性を広げる。
論文参考訳（メタデータ） (2025-12-08T16:24:46Z)
Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens [0.0]
大規模視覚言語モデル (LVLM) は、顕著なマルチモーダル理解と推論能力を示した。 LVLMはテキストのプロンプトと大きな言語モデルの内部知識に過度に依存し、視覚的手がかりと矛盾する記述を生成する傾向がある。物体幻覚を緩和するためのトレーニング不要な手法を提案する。
論文参考訳（メタデータ） (2025-08-04T13:40:59Z)
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文参考訳（メタデータ） (2025-05-30T05:54:36Z)
Triggering Hallucinations in LLMs: A Quantitative Study of Prompt-Induced Hallucination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、現実世界のアプリケーションにまたがる課題が増えていることを示している。幻覚を系統的に引き起こし定量化するプロンプトベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-01T14:33:47Z)
CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文参考訳（メタデータ） (2024-11-19T18:27:31Z)
A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。 LVLMの構造と幻覚の発生の主な原因を紹介する。 LVLMの幻覚評価ベンチマークについて述べる。
論文参考訳（メタデータ） (2024-10-20T10:58:58Z)
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文参考訳（メタデータ） (2024-10-09T11:46:32Z)
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。提案手法の有効性を示す4種類のLVLMについて検討した。
論文参考訳（メタデータ） (2024-05-29T15:28:42Z)
Hallucination of Multimodal Large Language Models: A Survey [40.73148186369018]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文参考訳（メタデータ） (2024-04-29T17:59:41Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。 LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文参考訳（メタデータ） (2023-11-09T09:25:37Z)
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文参考訳（メタデータ） (2023-09-03T16:56:48Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。