論文の概要: PhD: A Prompted Visual Hallucination Evaluation Dataset
- arxiv url: http://arxiv.org/abs/2403.11116v1
- Date: Sun, 17 Mar 2024 06:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:35:30.754322
- Title: PhD: A Prompted Visual Hallucination Evaluation Dataset
- Title(参考訳): PhD: 視覚幻覚評価データセット
- Authors: Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li,
- Abstract要約: 内因性視覚・言語幻覚(IVL-Hallu)問題について検討し,IVL-Halluの病因と反射について,多種多様なIVL-Halluを徹底的に分析した。
具体的には、新しいIVL-ハルル課題を提案し、(a)オブジェクト幻覚、(b)属性幻覚、(c)マルチモーダルコンフリクト幻覚、(d)対コモンセンス幻覚の4つのタイプに分類する。
そこで本研究では,IVL-Hallu の評価と探索を行うため,PhD というより難しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 23.49107734068849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of Large Language Models (LLMs) has driven the development of Large Vision-Language Models (LVLMs). The challenge of hallucination, prevalent in LLMs, also emerges in LVLMs. However, most existing efforts mainly focus on object hallucination in LVLM, ignoring diverse types of LVLM hallucinations. In this study, we delve into the Intrinsic Vision-Language Hallucination (IVL-Hallu) issue, thoroughly analyzing different types of IVL-Hallu on their causes and reflections. Specifically, we propose several novel IVL-Hallu tasks and categorize them into four types: (a) object hallucination, which arises from the misidentification of objects, (b) attribute hallucination, which is caused by the misidentification of attributes, (c) multi-modal conflicting hallucination, which derives from the contradictions between textual and visual information, and (d) counter-common-sense hallucination, which owes to the contradictions between the LVLM knowledge and actual images. Based on these taxonomies, we propose a more challenging benchmark named PhD to evaluate and explore IVL-Hallu. An automated pipeline is proposed for generating different types of IVL-Hallu data. Extensive experiments on five SOTA LVLMs reveal their inability to effectively tackle our proposed IVL-Hallu tasks, with detailed analyses and insights on the origins and possible solutions of these new challenging IVL-Hallu tasks, facilitating future researches on IVL-Hallu and LVLM. The benchmark can be accessed at \href{https://github.com/jiazhen-code/IntrinsicHallu}{this https URL}.
- Abstract(参考訳): LLM(Large Language Models)の急速な成長により、LVLM(Large Vision-Language Models)の開発が進められた。
LLMで広く見られる幻覚の課題は、LVLMにも現れる。
しかし、既存の取り組みの大部分は、LVLMのさまざまな種類の幻覚を無視して、LVLMのオブジェクト幻覚に重点を置いている。
そこで本研究では,IVL-Halluの根本的視覚・言語幻覚(IVL-Hallu)問題について検討し,その原因と反映について,様々なタイプのIVL-Halluを徹底的に分析した。
具体的には、いくつかの新しいIVL-ハルルタスクを提案し、これらを4つのタイプに分類する。
(a)物体の誤認から生じる物体幻覚
(b)属性の誤識別による属性幻覚
(c)テキスト情報と視覚情報の矛盾から派生したマルチモーダルコンフリクト幻覚
(d)LVLMの知識と実際のイメージの矛盾による反常識幻覚。
これらの分類学に基づいて、IVL-ハルルの評価と探索を行うために、PhDというより難しいベンチマークを提案する。
異なるタイプのIVL-Halluデータを生成するための自動パイプラインが提案されている。
5つのSOTA LVLMの大規模な実験により、提案したIVL-Halluタスクに効果的に取り組むことができないことが明らかとなり、新しいIVL-Halluタスクの起源と解決法に関する詳細な分析と知見が得られ、IVL-HalluとLVLMの今後の研究が促進される。
ベンチマークは \href{https://github.com/jiazhen-code/IntrinsicHallu}{this https URL} からアクセスすることができる。
関連論文リスト
- HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクの実行において顕著な性能を示す。
本稿では,新しい視覚的質問応答(VQA)オブジェクト幻覚攻撃ベンチマークであるHALLUCINOGENを提案する。
バイオメディカルドメインに適合した幻覚攻撃であるMED-HALLUCINOGENを導入した。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - Visual Hallucination: Definition, Quantification, and Prescriptive Remediations [5.980832131162941]
幻覚はおそらくAIの進歩に最も重大な障害をもたらす。
画像キャプションと視覚質問応答 (VQA) の2つの課題に基づく幻覚のきめ細かいプロファイリングを提供する。
本研究では,8つの課題のキャプションとVQAを用いて生成した2,000のサンプルと,その言説に対する人間のアノテーションからなるデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-03-26T01:28:42Z) - Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination [14.25488878224697]
本稿では、類似した視覚幻覚を利用する訓練不要の手法であるPensieveを提案する。
Pensieveは、抽出されたスコアを適応的にスケーリングすることで、視覚とテキストの両方のブランチからエラーに対処する効果を緩和する。
論文 参考訳(メタデータ) (2024-03-21T13:49:42Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - HallE-Control: Controlling Object Hallucination in Large Multimodal Models [80.03697683629035]
詳細な字幕作成のための GPT-4 支援評価手法である $textitCCEval$ を導入する。
LMMは既存のVQAベンチマークにおいて最小限のオブジェクト存在幻覚を示すが、提案手法はそのような幻覚への感受性を継続することを示す。
LLaVA$_7B$に比べて幻覚は44%減少し,対象範囲を維持できる。
論文 参考訳(メタデータ) (2023-10-03T04:01:27Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。