Fugu-MT 論文翻訳(概要): A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models

論文の概要: A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models

arxiv url: http://arxiv.org/abs/2405.09589v4
Date: Thu, 03 Oct 2024 09:00:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 06:07:08.158355
Title: A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models
Title（参考訳）: 大規模言語・画像・ビデオ・オーディオ基礎モデルにおける幻覚の包括的調査
Authors: Pranab Sahoo, Prabhash Meharia, Akash Ghosh, Sriparna Saha, Vinija Jain, Aman Chadha,
Abstract要約: ファンデーションモデル(FM)の拡散は、幻覚出力を生成する可能性という重要な課題を引き起こします。本研究は, FMにおける幻覚の問題を同定し, 緩和することを目的とした最近の研究の概要を概観する。
参考スコア（独自算出の注目度）: 11.123264942473684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of foundation models (FMs) across language, image, audio, and video domains has shown remarkable capabilities in diverse tasks. However, the proliferation of FMs brings forth a critical challenge: the potential to generate hallucinated outputs, particularly in high-stakes applications. The tendency of foundation models to produce hallucinated content arguably represents the biggest hindrance to their widespread adoption in real-world scenarios, especially in domains where reliability and accuracy are paramount. This survey paper presents a comprehensive overview of recent developments that aim to identify and mitigate the problem of hallucination in FMs, spanning text, image, video, and audio modalities. By synthesizing recent advancements in detecting and mitigating hallucination across various modalities, the paper aims to provide valuable insights for researchers, developers, and practitioners. Essentially, it establishes a clear framework encompassing definition, taxonomy, and detection strategies for addressing hallucination in multimodal foundation models, laying the foundation for future research in this pivotal area.
Abstract（参考訳）: 言語、画像、音声、ビデオ領域にまたがるファンデーションモデル(FM)の急速な進歩は、様々なタスクにおいて顕著な能力を示している。しかし、FMの拡散は、特に高感度の応用において、幻覚出力を発生させる可能性という重要な課題を生んでいる。幻覚コンテンツを生み出す基礎モデルの傾向は、特に信頼性と精度が最重要である領域において、現実のシナリオにおいて広く採用されていることの最大の障害である。本研究は,FMにおける幻覚問題,テキスト,画像,ビデオ,オーディオモダリティの同定と緩和を目的とした最近の研究の概要を概説する。近年の幻覚の検出・緩和の進歩によって,研究者,開発者,実践者に貴重な洞察を提供することが目的である。本質的には、マルチモーダル基礎モデルの幻覚に対処するための定義、分類、検出戦略を含む明確な枠組みを確立し、この中心的な領域における将来の研究の基礎を築いた。

関連論文リスト

A Survey of Multimodal Hallucination Evaluation and Detection [52.03164192840023]
MLLM(Multi-modal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なパラダイムとして登場した。これらのモデルはしばしば幻覚に悩まされ、もっともらしいように見えるコンテンツを生成するが、入力内容や確立された世界的知識と矛盾する。本調査では,イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)生成タスクを対象とした幻覚評価ベンチマークと検出方法の詳細なレビューを行う。
論文参考訳（メタデータ） (2025-07-25T07:22:42Z)
Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation [78.78421340836915]
オープンドメイン長文応答における参照なし幻覚検出を系統的に検討する。その結果,内的状態は事実と幻覚的内容とを確実に区別するには不十分であることが判明した。 RATE-FTと呼ばれる新しいパラダイムを導入し、モデルが幻覚検出のメインタスクと共同で学習するための補助的なタスクで微調整を強化する。
論文参考訳（メタデータ） (2025-05-18T07:10:03Z)
A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models [30.037505914306504]
視覚言語モデル(LVLM)はマルチモーダルタスクにおいて顕著な機能を示す。 LVLMはクエリ入力に基づいて不正確なビジュアルオブジェクト関連情報を生成し、安全性と信頼性に関する誤った情報や懸念を引き起こす可能性がある。本稿では,LLaVAライクなLVLMの各コンポーネントを分析し,潜在的なエラーの発生源とその影響を同定する。
論文参考訳（メタデータ） (2025-05-04T01:47:58Z)
Mapping of Subjective Accounts into Interpreted Clusters (MOSAIC): Topic Modelling and LLM applied to Stroboscopic Phenomenology [0.6282171844772422]
閉じた目のストロボスコープ光刺激(SLS)は、通常単純な視覚幻覚(VHs)を引き起こす 422件の公開主観的報告から抽出された852文のデータセットが,近年,ドリーマカインプログラムの一部として編纂された(収集法,2022)。
論文参考訳（メタデータ） (2025-02-25T16:11:40Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。本研究は,幻覚に対する2つの重要な要因を明らかにした。私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文参考訳（メタデータ） (2024-10-16T17:59:02Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
A Comprehensive Survey on Diffusion Models and Their Applications [0.4218593777811082]
拡散モデルは拡散過程をシミュレートして現実的なサンプルを作成する確率論的モデルである。これらのモデルは、画像処理、音声合成、自然言語処理といった領域で人気を博している。このレビューは、拡散モデルをより深く理解し、より広く採用することを目的としている。
論文参考訳（メタデータ） (2024-07-01T17:10:29Z)
Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval [14.58181631462891]
大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。幻覚への感受性は、医療などの重要な分野への展開に重大な課題をもたらす。我々は,LLMの応答の事実性を高めるために,自己精製強化知識グラフ検索法(Re-KGR)を提案する。
論文参考訳（メタデータ） (2024-05-10T15:40:50Z)
Hallucination of Multimodal Large Language Models: A Survey [40.73148186369018]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文参考訳（メタデータ） (2024-04-29T17:59:41Z)
Unified Hallucination Detection for Multimodal Large Language Models [44.333451078750954]
マルチモーダル大言語モデル(MLLM)は幻覚の重要な問題に悩まされている。本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。我々は,幻覚の発生を確実に検証するために,一連の補助ツールを活用する,新しい統合型マルチモーダル幻覚検出フレームワークUNIHDを公表した。
論文参考訳（メタデータ） (2024-02-05T16:56:11Z)
Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文参考訳（メタデータ） (2024-01-30T03:51:44Z)
Towards Mitigating Hallucination in Large Language Models via Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文参考訳（メタデータ） (2023-10-10T03:05:44Z)
A Survey of Hallucination in Large Foundation Models [7.3406553263782035]
ファンデーション・モデル(FM)における幻覚とは、現実から逸脱するコンテンツや、偽情報を含むコンテンツの生成を指す。本稿は, LFM特有の幻覚現象の種類を分類し, 幻覚の程度を評価するための評価基準を確立する。
論文参考訳（メタデータ） (2023-09-12T02:34:06Z)
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文参考訳（メタデータ） (2023-09-03T16:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。