論文の概要: Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate
- arxiv url: http://arxiv.org/abs/2407.20505v1
- Date: Tue, 30 Jul 2024 02:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 18:28:58.128340
- Title: Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate
- Title(参考訳): マルチエージェント・ディベートによるMLLMの幻覚の解釈と緩和
- Authors: Zheng Lin, Zhenxing Niu, Zhibin Wang, Yinghui Xu,
- Abstract要約: MLLMにおける幻覚は、部分的には、これらのモデルにおいてゆっくり考え、異なる考えが欠如しているためである、と我々は主張する。
我々のアプローチは幻覚だけでなく、それらがなぜ起こるのかを解釈し、幻覚の特異点を詳述する。
- 参考スコア(独自算出の注目度): 34.17353224636788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MLLMs often generate outputs that are inconsistent with the visual content, a challenge known as hallucination. Previous methods focus on determining whether a generated output is hallucinated, without identifying which image region leads to the hallucination or interpreting why such hallucinations occur. In this paper, we argue that hallucination in MLLMs is partially due to a lack of slow-thinking and divergent-thinking in these models. To address this, we propose adopting a self-reflection scheme to promote slow-thinking. Furthermore, we consider eliminating hallucination as a complex reasoning task and propose a multi-agent debate approach to encourage divergent-thinking. Consequently, our approach can not only mitigate hallucinations but also interpret why they occur and detail the specifics of hallucination. In addition, we propose to distinguish creativity from hallucination in the context of MLLMs, and illustrate how to evaluate MLLMs' creativity capability. Extensive experiments on various benchmarks demonstrate that our approach exhibits generalized hallucinations-mitigating performance across several MLLMs.
- Abstract(参考訳): MLLMは視覚内容と矛盾しない出力をしばしば生成するが、これは幻覚として知られる挑戦である。
それまでの方法は、どの画像領域が幻覚につながるかを特定したり、なぜ幻覚が起こるのかを解釈することなく、生成した出力が幻覚化されているかどうかを判断することに集中していた。
本稿では, MLLMにおける幻覚は, これらのモデルにおいて, 緩やかな思考と発散的な思考が欠如していることが原因である,と論じる。
これを解決するために,スロー思考を促進する自己修正方式を提案する。
さらに,幻覚を複雑な推論課題として排除することを検討した。
したがって,本手法は幻覚を緩和するだけでなく,その原因を解明し,幻覚の特異点を詳述する。
また,MLLMの創造性と幻覚を区別し,MLLMの創造性を評価する方法について述べる。
様々なベンチマーク実験により,本手法は複数のMLLMにまたがる一般化幻覚軽減性能を示すことが示された。
関連論文リスト
- Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - Hallucination Diversity-Aware Active Learning for Text Summarization [46.00645048690819]
LLM(Large Language Models)は、幻覚出力を生成するための妥当性を示す。
幻覚を緩和するための既存の方法は、通常、LLM出力の幻覚を識別し修正するために、人為的なアノテーションを必要とする。
LLM幻覚を緩和する最初のアクティブラーニングフレームワークを提案し,必要な幻覚アノテーションのコストを削減した。
論文 参考訳(メタデータ) (2024-04-02T02:30:27Z) - Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination [14.25488878224697]
本稿では、類似した視覚幻覚を利用する訓練不要の手法であるPensieveを提案する。
Pensieveは、抽出されたスコアを適応的にスケーリングすることで、視覚とテキストの両方のブランチからエラーに対処する効果を緩和する。
論文 参考訳(メタデータ) (2024-03-21T13:49:42Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models [35.45859414670449]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - A Survey on Hallucination in Large Vision-Language Models [18.540878498840435]
LVLM(Large Vision-Language Models)は、実践的な実装の可能性から、AIの世界において注目を集めている。
しかし,「幻覚」は,現実の視覚的内容とそれに対応するテキスト生成のミスアライメントが,LVLMを活用する上で大きな課題となる。
我々は,LVLM関連幻覚を解明し,今後の緩和を促進するために検討する。
論文 参考訳(メタデータ) (2024-02-01T00:33:21Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。
LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。
この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。