論文の概要: THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.05256v1
- Date: Wed, 8 May 2024 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 13:45:01.149226
- Title: THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models
- Title(参考訳): THRONE:大規模視覚言語モデルのフリーフォーム生成のためのオブジェクトベースの幻覚ベンチマーク
- Authors: Prannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto,
- Abstract要約: 大規模視覚言語モデル(LVLM)の幻覚は未解決の問題である。
LVLMフリーフォーム出力におけるタイプI幻覚を定量的に評価する新しいオブジェクトベース自動フレームワークであるTHRONEを提案する。
既存の指標の改善は,I型幻覚の減少につながるものではなく,I型幻覚測定のための確立されたベンチマークが不完全であることを示す。
- 参考スコア(独自算出の注目度): 43.360605765788925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mitigating hallucinations in large vision-language models (LVLMs) remains an open problem. Recent benchmarks do not address hallucinations in open-ended free-form responses, which we term "Type I hallucinations". Instead, they focus on hallucinations responding to very specific question formats -- typically a multiple-choice response regarding a particular object or attribute -- which we term "Type II hallucinations". Additionally, such benchmarks often require external API calls to models which are subject to change. In practice, we observe that a reduction in Type II hallucinations does not lead to a reduction in Type I hallucinations but rather that the two forms of hallucinations are often anti-correlated. To address this, we propose THRONE, a novel object-based automatic framework for quantitatively evaluating Type I hallucinations in LVLM free-form outputs. We use public language models (LMs) to identify hallucinations in LVLM responses and compute informative metrics. By evaluating a large selection of recent LVLMs using public datasets, we show that an improvement in existing metrics do not lead to a reduction in Type I hallucinations, and that established benchmarks for measuring Type I hallucinations are incomplete. Finally, we provide a simple and effective data augmentation method to reduce Type I and Type II hallucinations as a strong baseline.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)における幻覚の緩和は未解決の問題である。
最近のベンチマークでは、「タイプI幻覚」と呼ばれるオープンエンドフリーフォーム応答の幻覚には対処していない。
代わりに、非常に特定の質問形式(典型的には特定のオブジェクトや属性に関する複数の選択応答)に対応する幻覚に焦点を当てます。
さらに、このようなベンチマークは、変更されるモデルに対する外部API呼び出しを必要とすることが多い。
実際には、II型幻覚の減少はI型幻覚の減少につながるものではなく、むしろ2種類の幻覚がしばしば反相関的であることを観察している。
そこで本研究では,LVLMフリーフォーム出力におけるI型幻覚を定量的に評価する,オブジェクトベースの新しい自動フレームワークであるTHRONEを提案する。
我々は、LVLM応答における幻覚を識別し、情報量を計算するために、パブリック言語モデル(LM)を用いる。
近年のLVLMの大量選択をパブリックデータセットを用いて評価することにより,既存の指標の改善がI型幻覚の減少につながることはなく,I型幻覚の測定のための確立されたベンチマークが不完全であることを示す。
最後に,強力なベースラインとして,I型とII型の幻覚を減らすための,シンプルで効果的なデータ拡張手法を提案する。
関連論文リスト
- Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models [22.42712853647949]
本稿では,CLIPモデル内での物体幻覚問題について詳細に検討する。
孤立しても、CLIPモデルは対象の幻覚に傾向があり、幻覚問題は単に視覚と言語モダリティの相互作用によるものではないことを示唆する。
拡張モデルは視覚エンコーダとして利用でき、LVLMにおける物体幻覚の問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2024-10-04T06:24:49Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models [33.19894606649144]
視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。
生成した幻覚に遭遇する際のLVLMの挙動を評価するためのMMHalballというフレームワークを提案する。
本稿では,LVLMの出力分布を残差視覚入力から導出した値で修正する,Residual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T03:04:11Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models [35.45859414670449]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。