論文の概要: Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs
- arxiv url: http://arxiv.org/abs/2408.01355v1
- Date: Fri, 2 Aug 2024 16:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 12:58:15.400999
- Title: Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs
- Title(参考訳): Hallu-PI:摂動入力における多モーダル大言語モデルにおける幻覚の評価
- Authors: Peng Ding, Jingyu Wu, Jun Kuang, Dan Ma, Xuezhi Cao, Xunliang Cai, Shi Chen, Jiajun Chen, Shujian Huang,
- Abstract要約: Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
- 参考スコア(独自算出の注目度): 54.50483041708911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have demonstrated remarkable performance on various visual-language understanding and generation tasks. However, MLLMs occasionally generate content inconsistent with the given images, which is known as "hallucination". Prior works primarily center on evaluating hallucination using standard, unperturbed benchmarks, which overlook the prevalent occurrence of perturbed inputs in real-world scenarios-such as image cropping or blurring-that are critical for a comprehensive assessment of MLLMs' hallucination. In this paper, to bridge this gap, we propose Hallu-PI, the first benchmark designed to evaluate Hallucination in MLLMs within Perturbed Inputs. Specifically, Hallu-PI consists of seven perturbed scenarios, containing 1,260 perturbed images from 11 object types. Each image is accompanied by detailed annotations, which include fine-grained hallucination types, such as existence, attribute, and relation. We equip these annotations with a rich set of questions, making Hallu-PI suitable for both discriminative and generative tasks. Extensive experiments on 12 mainstream MLLMs, such as GPT-4V and Gemini-Pro Vision, demonstrate that these models exhibit significant hallucinations on Hallu-PI, which is not observed in unperturbed scenarios. Furthermore, our research reveals a severe bias in MLLMs' ability to handle different types of hallucinations. We also design two baselines specifically for perturbed scenarios, namely Perturbed-Reminder and Perturbed-ICL. We hope that our study will bring researchers' attention to the limitations of MLLMs when dealing with perturbed inputs, and spur further investigations to address this issue. Our code and datasets are publicly available at https://github.com/NJUNLP/Hallu-PI.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、様々な視覚的言語理解および生成タスクにおいて顕著な性能を示す。
しかし、MLLMは時に「幻覚」と呼ばれる与えられた画像と矛盾する内容を生成する。
従来の研究は主に、MLLMの幻覚を包括的に評価する上で重要な、画像の収穫やぼやけといった現実のシナリオにおいて、乱れた入力が頻繁に発生するのを見落としている標準の未成熟なベンチマークを用いて幻覚を評価することに焦点を当てていた。
本稿では,このギャップを埋めるために,摂動入力におけるMLLMのハロシン化を評価するための最初のベンチマークであるHau-PIを提案する。
具体的には、Hau-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
それぞれの画像には詳細な注釈が添付されており、そこには存在、属性、関係など、細かい幻覚のタイプが含まれている。
我々はこれらのアノテーションにリッチな質問セットを設け、識別的タスクと生成的タスクの両方に適合させる。
GPT-4VやGemini-Pro Visionのような12種類のMLLMの大規模な実験は、これらのモデルが未成熟のシナリオでは観測されないハルーPIに顕著な幻覚を示すことを示した。
さらに,本研究では,MLLMがさまざまな幻覚を処理できる能力に深刻な偏りがあることが判明した。
また、摂動シナリオ(Perturbed-Reminder)と摂動ICL(Perturbed-ICL)の2つのベースラインを設計する。
我々の研究は、摂動入力に対処する際のMLLMの限界に研究者の注意を向け、この問題に対処するためのさらなる調査を促すことを願っている。
私たちのコードとデータセットはhttps://github.com/NJUNLP/Hallu-PIで公開されています。
関連論文リスト
- Mitigating Multilingual Hallucination in Large Vision-Language Models [35.75851356840673]
大規模視覚言語モデル(LVLM)のための2段階多言語幻覚除去(MHR)フレームワークを提案する。
多言語リソースの複雑な手動アノテーションに頼る代わりに,新しい言語間アライメント手法を提案する。
当社のフレームワークは,13言語で平均19.0%の精度向上を実現しています。
論文 参考訳(メタデータ) (2024-08-01T13:34:35Z) - Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate [34.17353224636788]
MLLMにおける幻覚は、部分的には、これらのモデルにおいてゆっくり考え、異なる考えが欠如しているためである、と我々は主張する。
我々のアプローチは幻覚だけでなく、それらがなぜ起こるのかを解釈し、幻覚の特異点を詳述する。
論文 参考訳(メタデータ) (2024-07-30T02:41:32Z) - Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。