Fugu-MT 論文翻訳(概要): PhD: A Prompted Visual Hallucination Evaluation Dataset

論文の概要: PhD: A Prompted Visual Hallucination Evaluation Dataset

arxiv url: http://arxiv.org/abs/2403.11116v1
Date: Sun, 17 Mar 2024 06:53:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 18:35:30.754322
Title: PhD: A Prompted Visual Hallucination Evaluation Dataset
Title（参考訳）: PhD: 視覚幻覚評価データセット
Authors: Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li,
Abstract要約: 内因性視覚・言語幻覚(IVL-Hallu)問題について検討し,IVL-Halluの病因と反射について,多種多様なIVL-Halluを徹底的に分析した。具体的には、新しいIVL-ハルル課題を提案し、(a)オブジェクト幻覚、(b)属性幻覚、(c)マルチモーダルコンフリクト幻覚、(d)対コモンセンス幻覚の4つのタイプに分類する。そこで本研究では,IVL-Hallu の評価と探索を行うため,PhD というより難しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 23.49107734068849
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid growth of Large Language Models (LLMs) has driven the development of Large Vision-Language Models (LVLMs). The challenge of hallucination, prevalent in LLMs, also emerges in LVLMs. However, most existing efforts mainly focus on object hallucination in LVLM, ignoring diverse types of LVLM hallucinations. In this study, we delve into the Intrinsic Vision-Language Hallucination (IVL-Hallu) issue, thoroughly analyzing different types of IVL-Hallu on their causes and reflections. Specifically, we propose several novel IVL-Hallu tasks and categorize them into four types: (a) object hallucination, which arises from the misidentification of objects, (b) attribute hallucination, which is caused by the misidentification of attributes, (c) multi-modal conflicting hallucination, which derives from the contradictions between textual and visual information, and (d) counter-common-sense hallucination, which owes to the contradictions between the LVLM knowledge and actual images. Based on these taxonomies, we propose a more challenging benchmark named PhD to evaluate and explore IVL-Hallu. An automated pipeline is proposed for generating different types of IVL-Hallu data. Extensive experiments on five SOTA LVLMs reveal their inability to effectively tackle our proposed IVL-Hallu tasks, with detailed analyses and insights on the origins and possible solutions of these new challenging IVL-Hallu tasks, facilitating future researches on IVL-Hallu and LVLM. The benchmark can be accessed at \href{https://github.com/jiazhen-code/IntrinsicHallu}{this https URL}.
Abstract（参考訳）: LLM(Large Language Models)の急速な成長により、LVLM(Large Vision-Language Models)の開発が進められた。 LLMで広く見られる幻覚の課題は、LVLMにも現れる。しかし、既存の取り組みの大部分は、LVLMのさまざまな種類の幻覚を無視して、LVLMのオブジェクト幻覚に重点を置いている。そこで本研究では,IVL-Halluの根本的視覚・言語幻覚(IVL-Hallu)問題について検討し,その原因と反映について,様々なタイプのIVL-Halluを徹底的に分析した。具体的には、いくつかの新しいIVL-ハルルタスクを提案し、これらを4つのタイプに分類する。 (a)物体の誤認から生じる物体幻覚 (b)属性の誤識別による属性幻覚 (c)テキスト情報と視覚情報の矛盾から派生したマルチモーダルコンフリクト幻覚 (d)LVLMの知識と実際のイメージの矛盾による反常識幻覚。これらの分類学に基づいて、IVL-ハルルの評価と探索を行うために、PhDというより難しいベンチマークを提案する。異なるタイプのIVL-Halluデータを生成するための自動パイプラインが提案されている。 5つのSOTA LVLMの大規模な実験により、提案したIVL-Halluタスクに効果的に取り組むことができないことが明らかとなり、新しいIVL-Halluタスクの起源と解決法に関する詳細な分析と知見が得られ、IVL-HalluとLVLMの今後の研究が促進される。ベンチマークは \href{https://github.com/jiazhen-code/IntrinsicHallu}{this https URL} からアクセスすることができる。

関連論文リスト

A Survey of Multimodal Hallucination Evaluation and Detection [52.03164192840023]
MLLM(Multi-modal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なパラダイムとして登場した。これらのモデルはしばしば幻覚に悩まされ、もっともらしいように見えるコンテンツを生成するが、入力内容や確立された世界的知識と矛盾する。本調査では,イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)生成タスクを対象とした幻覚評価ベンチマークと検出方法の詳細なレビューを行う。
論文参考訳（メタデータ） (2025-07-25T07:22:42Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models [30.037505914306504]
視覚言語モデル(LVLM)はマルチモーダルタスクにおいて顕著な機能を示す。 LVLMはクエリ入力に基づいて不正確なビジュアルオブジェクト関連情報を生成し、安全性と信頼性に関する誤った情報や懸念を引き起こす可能性がある。本稿では,LLaVAライクなLVLMの各コンポーネントを分析し,潜在的なエラーの発生源とその影響を同定する。
論文参考訳（メタデータ） (2025-05-04T01:47:58Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文参考訳（メタデータ） (2024-09-30T15:52:05Z)
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。 Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文参考訳（メタデータ） (2024-08-02T16:07:15Z)
MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文参考訳（メタデータ） (2024-07-03T00:59:03Z)
Visual Hallucination: Definition, Quantification, and Prescriptive Remediations [5.980832131162941]
幻覚はおそらくAIの進歩に最も重大な障害をもたらす。画像キャプションと視覚質問応答 (VQA) の2つの課題に基づく幻覚のきめ細かいプロファイリングを提供する。本研究では,8つの課題のキャプションとVQAを用いて生成した2,000のサンプルと,その言説に対する人間のアノテーションからなるデータセットをキュレートする。
論文参考訳（メタデータ） (2024-03-26T01:28:42Z)
Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination [14.25488878224697]
本稿では、類似した視覚幻覚を利用する訓練不要の手法であるPensieveを提案する。 Pensieveは、抽出されたスコアを適応的にスケーリングすることで、視覚とテキストの両方のブランチからエラーに対処する効果を緩和する。
論文参考訳（メタデータ） (2024-03-21T13:49:42Z)
Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文参考訳（メタデータ） (2024-03-06T09:06:34Z)
DelucionQA: Detecting Hallucinations in Domain-specific Question Answering [22.23664008053246]
幻覚は、大言語モデル(LLM)によって生成されたテキストでよく知られた現象である我々は、ドメイン固有のQAタスクのためのLLMの検索による幻覚をキャプチャするデータセットDelucionQAを紹介する。本研究では,研究コミュニティの今後の研究のベースラインとして,幻覚検出手法のセットを提案する。
論文参考訳（メタデータ） (2023-12-08T17:41:06Z)
HallE-Control: Controlling Object Hallucination in Large Multimodal Models [80.03697683629035]
詳細な字幕作成のための GPT-4 支援評価手法である $textitCCEval$ を導入する。 LMMは既存のVQAベンチマークにおいて最小限のオブジェクト存在幻覚を示すが、提案手法はそのような幻覚への感受性を継続することを示す。 LLaVA$_7B$に比べて幻覚は44%減少し,対象範囲を維持できる。
論文参考訳（メタデータ） (2023-10-03T04:01:27Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文参考訳（メタデータ） (2022-10-14T10:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。