Fugu-MT 論文翻訳(概要): A Survey on Hallucination in Large Vision-Language Models

論文の概要: A Survey on Hallucination in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2402.00253v1
Date: Thu, 1 Feb 2024 00:33:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 17:01:50.293943
Title: A Survey on Hallucination in Large Vision-Language Models
Title（参考訳）: 視覚・言語モデルにおける幻覚に関する調査
Authors: Hanchao Liu and Wenyuan Xue and Yifei Chen and Dapeng Chen and Xiutian Zhao and Ke Wang and Liping Hou and Rongjun Li and Wei Peng
Abstract要約: LVLM(Large Vision-Language Models)は、実践的な実装の可能性から、AIの世界において注目を集めている。しかし,「幻覚」は,現実の視覚的内容とそれに対応するテキスト生成のミスアライメントが,LVLMを活用する上で大きな課題となる。我々は,LVLM関連幻覚を解明し,今後の緩和を促進するために検討する。
参考スコア（独自算出の注目度）: 19.23812460169524
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.
Abstract（参考訳）: 最近の大型視覚言語モデル(lvlms)の開発は、その実用的な実装可能性について、aiの世界において注目を集めている。しかし、"hallucination"、またはより具体的には、実際の視覚内容と対応するテキスト生成との間の不一致は、lvlmsを利用するという大きな課題をもたらす。本研究は,LVLM関連幻覚を解明し,今後の緩和を促進するための総合的な調査である。我々の調査は、LVLMにおける幻覚の概念の解明から始まり、様々な幻覚症状を示し、LVLMの幻覚に固有のユニークな課題を強調します。次に,LVLM特有の幻覚評価のためのベンチマークと方法論について概説する。さらに、これらの幻覚の根本原因について、トレーニングデータとモデルコンポーネントからの洞察を包含して調査する。また,幻覚の緩和方法についても批判的に検討した。 LVLM内の幻覚に関するオープンな質問と今後の方向性について論じ,本調査を結論づける。

関連論文リスト

VOPE: Revisiting Hallucination of Vision-Language Models in Voluntary Imagination Task [73.75049937317506]
本稿では,自発的想像課題におけるLVLMの幻覚を評価するために,自発的物体存在評価(VOPE)を導入する。 VOPEはリチェックベースの質問を行い、LVLMが想像対象の存在を自身の反応で解釈する方法を評価する。モデル解釈と画像におけるオブジェクトの存在との間の一貫性は、モデルが応答を生成する際に幻覚を引き起こすかどうかを決定するために使用される。
論文参考訳（メタデータ） (2025-11-17T14:32:06Z)
A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。 LVLMの構造と幻覚の発生の主な原因を紹介する。 LVLMの幻覚評価ベンチマークについて述べる。
論文参考訳（メタデータ） (2024-10-20T10:58:58Z)
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文参考訳（メタデータ） (2024-06-20T16:56:11Z)
Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models [35.45859414670449]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文参考訳（メタデータ） (2024-02-24T05:14:52Z)
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文参考訳（メタデータ） (2024-01-06T12:40:45Z)
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。 LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文参考訳（メタデータ） (2023-11-09T09:25:37Z)
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文参考訳（メタデータ） (2023-09-03T16:56:48Z)
Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。 LVLMは今でも幻覚に悩まされている。幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文参考訳（メタデータ） (2023-08-29T08:51:24Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。