論文の概要: PhD: A Prompted Visual Hallucination Evaluation Dataset
- arxiv url: http://arxiv.org/abs/2403.11116v2
- Date: Wed, 21 Aug 2024 06:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 22:44:58.247568
- Title: PhD: A Prompted Visual Hallucination Evaluation Dataset
- Title(参考訳): PhD: 視覚幻覚評価データセット
- Authors: Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li,
- Abstract要約: 視覚幻覚評価のための大規模ベンチマークであるPhDを紹介する。
低レベル(対象/属性認識)から中レベル(知覚/位置認識とカウント)までの5つの視覚的認識タスクが検討されている。
合計で102k以上のVQA三重項を持つPhDは、MLLMの性能が様々なモードでかなり変動していることを明らかにする。
- 参考スコア(独自算出の注目度): 23.49107734068849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) hallucinate, resulting in an emerging topic of visual hallucination evaluation (VHE). We introduce in this paper PhD, a large-scale benchmark for VHE. The essence of VHE is to ask an MLLM the right questions concerning a specific image. Depending on what to ask (objects, attributes, sentiment, etc.) and how the questions are asked, we structure PhD along two dimensions, i.e. task and mode. Five visual recognition tasks, ranging from low-level (object / attribute recognition) to middle-level (sentiment / position recognition and counting), are considered. Besides a normal visual QA mode, which we term VHE-base, PhD also asks questions with inaccurate context (VHE-iac) or with incorrect context (VHE-icc), or with AI-generated counter common sense images (VHE-ccs). We construct PhD by a ChatGPT-assisted semi-automated pipeline, encompassing four pivotal modules: task-specific hallucinatory element (hitem) selection, hitem-embedded question generation, inaccurate / incorrect context generation, and CCS image generation. With over 102k VQA triplets in total, PhD reveals considerable variability in MLLMs' performance across various modes, offering valuable insights into the nature of hallucination issues. As such, PhD stands as a potent tool not only for VHE but may also play a significant role in the refinement of MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は幻覚を呈し、視覚幻覚評価(VHE)の新たな話題となる。
本稿では,VHEの大規模ベンチマークであるPhDを紹介する。
VHEの本質は、特定の画像に関する正しい質問をMLLMに尋ねることである。
問うべきこと(対象、属性、感情など)と問う方法によって、我々はPhDを2つの次元、すなわちタスクとモードに沿って構成する。
低レベル(対象/属性認識)から中レベル(知覚/位置認識とカウント)までの5つの視覚的認識タスクが検討されている。
VHEベースと呼ばれる通常の視覚的QAモードに加えて、PhDは不正確なコンテキスト(VHE-iac)や不正確なコンテキスト(VHE-icc)、あるいはAIが生成した反常識イメージ(VHE-ccs)といった質問も行う。
本稿では,ChatGPTを用いた半自動パイプラインを用いてPhDを構築し,タスク固有の幻覚要素(ヒテム)選択,ヒテム埋め込み質問生成,不正確なコンテキスト生成,CS画像生成の4つの重要なモジュールを包含する。
合計で102k以上のVQA三つ子を持つPhDは、MLLMの性能が様々なモードで変化していることを明らかにし、幻覚問題の性質に関する貴重な洞察を提供する。
このように、PhDはVHEだけでなくMLLMの精製にも重要な役割を果たす可能性がある。
関連論文リスト
- LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - Visual Hallucination: Definition, Quantification, and Prescriptive Remediations [5.980832131162941]
幻覚はおそらくAIの進歩に最も重大な障害をもたらす。
画像キャプションと視覚質問応答 (VQA) の2つの課題に基づく幻覚のきめ細かいプロファイリングを提供する。
本研究では,8つの課題のキャプションとVQAを用いて生成した2,000のサンプルと,その言説に対する人間のアノテーションからなるデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-03-26T01:28:42Z) - Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination [14.25488878224697]
本稿では、類似した視覚幻覚を利用する訓練不要の手法であるPensieveを提案する。
Pensieveは、抽出されたスコアを適応的にスケーリングすることで、視覚とテキストの両方のブランチからエラーに対処する効果を緩和する。
論文 参考訳(メタデータ) (2024-03-21T13:49:42Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - DelucionQA: Detecting Hallucinations in Domain-specific Question
Answering [22.23664008053246]
幻覚は、大言語モデル(LLM)によって生成されたテキストでよく知られた現象である
我々は、ドメイン固有のQAタスクのためのLLMの検索による幻覚をキャプチャするデータセットDelucionQAを紹介する。
本研究では,研究コミュニティの今後の研究のベースラインとして,幻覚検出手法のセットを提案する。
論文 参考訳(メタデータ) (2023-12-08T17:41:06Z) - HallE-Control: Controlling Object Hallucination in Large Multimodal Models [80.03697683629035]
詳細な字幕作成のための GPT-4 支援評価手法である $textitCCEval$ を導入する。
LMMは既存のVQAベンチマークにおいて最小限のオブジェクト存在幻覚を示すが、提案手法はそのような幻覚への感受性を継続することを示す。
LLaVA$_7B$に比べて幻覚は44%減少し,対象範囲を維持できる。
論文 参考訳(メタデータ) (2023-10-03T04:01:27Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。