論文の概要: A Survey on Hallucination in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.00253v1
- Date: Thu, 1 Feb 2024 00:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 17:01:50.293943
- Title: A Survey on Hallucination in Large Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける幻覚に関する調査
- Authors: Hanchao Liu and Wenyuan Xue and Yifei Chen and Dapeng Chen and Xiutian
Zhao and Ke Wang and Liping Hou and Rongjun Li and Wei Peng
- Abstract要約: LVLM(Large Vision-Language Models)は、実践的な実装の可能性から、AIの世界において注目を集めている。
しかし,「幻覚」は,現実の視覚的内容とそれに対応するテキスト生成のミスアライメントが,LVLMを活用する上で大きな課題となる。
我々は,LVLM関連幻覚を解明し,今後の緩和を促進するために検討する。
- 参考スコア(独自算出の注目度): 19.23812460169524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent development of Large Vision-Language Models (LVLMs) has attracted
growing attention within the AI landscape for its practical implementation
potential. However, ``hallucination'', or more specifically, the misalignment
between factual visual content and corresponding textual generation, poses a
significant challenge of utilizing LVLMs. In this comprehensive survey, we
dissect LVLM-related hallucinations in an attempt to establish an overview and
facilitate future mitigation. Our scrutiny starts with a clarification of the
concept of hallucinations in LVLMs, presenting a variety of hallucination
symptoms and highlighting the unique challenges inherent in LVLM
hallucinations. Subsequently, we outline the benchmarks and methodologies
tailored specifically for evaluating hallucinations unique to LVLMs.
Additionally, we delve into an investigation of the root causes of these
hallucinations, encompassing insights from the training data and model
components. We also critically review existing methods for mitigating
hallucinations. The open questions and future directions pertaining to
hallucinations within LVLMs are discussed to conclude this survey.
- Abstract(参考訳): 最近の大型視覚言語モデル(lvlms)の開発は、その実用的な実装可能性について、aiの世界において注目を集めている。
しかし、"hallucination"、またはより具体的には、実際の視覚内容と対応するテキスト生成との間の不一致は、lvlmsを利用するという大きな課題をもたらす。
本研究は,LVLM関連幻覚を解明し,今後の緩和を促進するための総合的な調査である。
我々の調査は、LVLMにおける幻覚の概念の解明から始まり、様々な幻覚症状を示し、LVLMの幻覚に固有のユニークな課題を強調します。
次に,LVLM特有の幻覚評価のためのベンチマークと方法論について概説する。
さらに、これらの幻覚の根本原因について、トレーニングデータとモデルコンポーネントからの洞察を包含して調査する。
また,幻覚の緩和方法についても批判的に検討した。
LVLM内の幻覚に関するオープンな質問と今後の方向性について論じ,本調査を結論づける。
関連論文リスト
- Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - PhD: A Prompted Visual Hallucination Evaluation Dataset [23.49107734068849]
内因性視覚・言語幻覚(IVL-Hallu)問題について検討し,IVL-Halluの病因と反射について,多種多様なIVL-Halluを徹底的に分析した。
具体的には、新しいIVL-ハルル課題を提案し、(a)オブジェクト幻覚、(b)属性幻覚、(c)マルチモーダルコンフリクト幻覚、(d)対コモンセンス幻覚の4つのタイプに分類する。
そこで本研究では,IVL-Hallu の評価と探索を行うため,PhD というより難しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-17T06:53:44Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation
Framework for Large Vision Language Models [36.98580310654515]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - A Survey on Hallucination in Large Language Models: Principles,
Taxonomy, Challenges, and Open Questions [42.007305423982515]
大型言語モデル(LLM)は幻覚を生じさせ、現実の事実やユーザ入力と矛盾する内容をもたらす。
本調査は, LLM幻覚の分野での最近の進歩について, 徹底的, 徹底的に概観することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。