論文の概要: Hallucination of Multimodal Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2404.18930v1
- Date: Mon, 29 Apr 2024 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:39:07.394231
- Title: Hallucination of Multimodal Large Language Models: A Survey
- Title(参考訳): マルチモーダル大言語モデルの幻覚化に関する調査
- Authors: Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。
これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。
本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
- 参考スコア(独自算出の注目度): 40.73148186369018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This survey presents a comprehensive analysis of the phenomenon of hallucination in multimodal large language models (MLLMs), also known as Large Vision-Language Models (LVLMs), which have demonstrated significant advancements and remarkable abilities in multimodal tasks. Despite these promising developments, MLLMs often generate outputs that are inconsistent with the visual content, a challenge known as hallucination, which poses substantial obstacles to their practical deployment and raises concerns regarding their reliability in real-world applications. This problem has attracted increasing attention, prompting efforts to detect and mitigate such inaccuracies. We review recent advances in identifying, evaluating, and mitigating these hallucinations, offering a detailed overview of the underlying causes, evaluation benchmarks, metrics, and strategies developed to address this issue. Additionally, we analyze the current challenges and limitations, formulating open questions that delineate potential pathways for future research. By drawing the granular classification and landscapes of hallucination causes, evaluation benchmarks, and mitigation methods, this survey aims to deepen the understanding of hallucinations in MLLMs and inspire further advancements in the field. Through our thorough and in-depth review, we contribute to the ongoing dialogue on enhancing the robustness and reliability of MLLMs, providing valuable insights and resources for researchers and practitioners alike. Resources are available at: https://github.com/showlab/Awesome-MLLM-Hallucination.
- Abstract(参考訳): 本研究では,マルチモーダル大規模言語モデル(MLLM)における幻覚現象の包括的解析を行い,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。
これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力を生成することが多く、幻覚と呼ばれる課題は、実際の展開にかなりの障害を生じさせ、現実のアプリケーションにおける信頼性に関する懸念を提起する。
この問題は注目され、そのような不正確さを検知し緩和する努力が促された。
我々は、これらの幻覚を特定し、評価し、緩和する最近の進歩をレビューし、この問題に対処するために開発された根本原因、評価ベンチマーク、メトリクス、戦略の詳細な概要を提供する。
さらに、我々は現在の課題と限界を分析し、今後の研究の道筋を示すオープンな質問を定式化します。
本調査は, 幻覚原因, 評価基準, 緩和方法の詳細な分類と景観を図示することにより, MLLMにおける幻覚の理解を深め, この分野のさらなる発展を促すことを目的としている。
我々は,徹底的かつ詳細なレビューを通じて,MLLMの堅牢性と信頼性の向上に関する対話の継続に寄与し,研究者や実践者にも貴重な洞察とリソースを提供する。
リソースは、https://github.com/showlab/Awesome-MLLM-Hallucination.comで入手できる。
関連論文リスト
- Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - Unified Hallucination Detection for Multimodal Large Language Models [44.333451078750954]
マルチモーダル大言語モデル(MLLM)は幻覚の重要な問題に悩まされている。
本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。
我々は,幻覚の発生を確実に検証するために,一連の補助ツールを活用する,新しい統合型マルチモーダル幻覚検出フレームワークUNIHDを公表した。
論文 参考訳(メタデータ) (2024-02-05T16:56:11Z) - Insights into Classifying and Mitigating LLMs' Hallucinations [48.04565928175536]
本稿では,AI幻覚の根本原因を解明し,人工知能におけるその意義を明らかにする。
我々は,大規模な言語モデルの全体的な信頼性を高めることを目的として,幻覚を緩和するための潜在的戦略を探究する。
論文 参考訳(メタデータ) (2023-11-14T12:30:28Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - A Survey on Hallucination in Large Language Models: Principles,
Taxonomy, Challenges, and Open Questions [42.007305423982515]
大型言語モデル(LLM)は幻覚を生じさせ、現実の事実やユーザ入力と矛盾する内容をもたらす。
本調査は, LLM幻覚の分野での最近の進歩について, 徹底的, 徹底的に概観することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。