論文の概要: Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2408.09429v1
- Date: Sun, 18 Aug 2024 10:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:40:30.813584
- Title: Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models
- Title(参考訳): Reefknot:マルチモーダル大言語モデルにおける関係幻覚評価・分析・緩和のための総合ベンチマーク
- Authors: Kening Zheng, Junkai Chen, Yibo Yan, Xin Zou, Xuming Hu,
- Abstract要約: 現在のマルチモーダル大言語モデル(MLLM)に悩まされる幻覚
実世界のシナリオから得られた20,000以上のサンプルからなる関係幻覚を対象とするベンチマークであるReefknotを紹介する。
3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。
- 参考スコア(独自算出の注目度): 13.48296910438554
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hallucination issues persistently plagued current multimodal large language models (MLLMs). While existing research primarily focuses on object-level or attribute-level hallucinations, sidelining the more sophisticated relation hallucinations that necessitate advanced reasoning abilities from MLLMs. Besides, recent benchmarks regarding relation hallucinations lack in-depth evaluation and effective mitigation. Moreover, their datasets are typically derived from a systematic annotation process, which could introduce inherent biases due to the predefined process. To handle the aforementioned challenges, we introduce Reefknot, a comprehensive benchmark specifically targeting relation hallucinations, consisting of over 20,000 samples derived from real-world scenarios. Specifically, we first provide a systematic definition of relation hallucinations, integrating perspectives from perceptive and cognitive domains. Furthermore, we construct the relation-based corpus utilizing the representative scene graph dataset Visual Genome (VG), from which semantic triplets follow real-world distributions. Our comparative evaluation across three distinct tasks revealed a substantial shortcoming in the capabilities of current MLLMs to mitigate relation hallucinations. Finally, we advance a novel confidence-based mitigation strategy tailored to tackle the relation hallucinations problem. Across three datasets, including Reefknot, we observed an average reduction of 9.75% in the hallucination rate. We believe our paper sheds valuable insights into achieving trustworthy multimodal intelligence. Our dataset and code will be released upon paper acceptance.
- Abstract(参考訳): 幻覚の問題は、現在のマルチモーダル大言語モデル(MLLM)に絶え間なく悩まされた。
既存の研究は主に対象レベルの幻覚や属性レベルの幻覚に焦点を当てているが、MLLMから高度な推論能力を必要とするより洗練された関係幻覚を横に並べている。
さらに、最近の関係幻覚に関するベンチマークでは、深い評価と効果的な緩和が欠如している。
さらに、データセットは一般的に、事前に定義されたプロセスのために固有のバイアスをもたらすような、体系的なアノテーションプロセスから派生している。
上記の課題に対処するため、実世界のシナリオから2万以上のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
具体的には、まず関係幻覚を体系的に定義し、知覚的および認知的領域からの視点を統合する。
さらに,代表的なシーングラフデータセットであるVisual Genome (VG) を用いて,関係に基づくコーパスを構築した。
3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。
最後に,関係幻覚問題に対処するために,信頼度に基づく新たな緩和戦略を推し進める。
リーフノットを含む3つのデータセットで,幻覚率の平均減少率は9.75%であった。
我々の論文は、信頼できるマルチモーダルインテリジェンスを達成するための貴重な洞察を秘めていると信じています。
私たちのデータセットとコードは、論文の受理によってリリースされます。
関連論文リスト
- Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models [22.996176483599868]
我々は,LVLM(Large Vision-Language Models)における対象と関係の幻覚を同時に測定するための統一的なフレームワークを設計する。
本稿では,トリプルトレベルの幻覚評価ベンチマークTri-HEを紹介する。
論文 参考訳(メタデータ) (2024-10-30T15:25:06Z) - From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization [6.37435726278524]
複数の文書からトピック特化情報を要約する際に,大規模言語モデル (LLM) において幻覚がどのように現れるかを検討する。
平均して、LLM生成サマリーの最大75%は幻覚化され、要約の終わりに幻覚が生じる可能性が高い。
これらの幻覚の特徴を理解するために、手動で700以上の洞察を評価し、ほとんどのエラーは指示に従わなかったり、過度に総合的な洞察が得られなかったりする。
論文 参考訳(メタデータ) (2024-10-17T18:38:53Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models [69.79709804046325]
視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。
R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。
我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
論文 参考訳(メタデータ) (2024-06-24T08:42:42Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - The Troubling Emergence of Hallucination in Large Language Models -- An
Extensive Definition, Quantification, and Prescriptive Remediations [10.20632187568563]
我々は、その程度、向き、カテゴリーに基づいて、プロファイリング幻覚について論じる。
幻覚は, (i) acronym ambiguity, (ii)numeric nuisance, (iii) generated golem, (iv) virtual voice, (v) Geographic erratum, (vi) time wrapの6種類に分類される。
より広範なNLPコミュニティのためのツールとしてHalucination Vulnerability Index (HVI)を提案する。
論文 参考訳(メタデータ) (2023-10-08T03:31:29Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。