論文の概要: SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs
- arxiv url: http://arxiv.org/abs/2508.09584v1
- Date: Wed, 13 Aug 2025 07:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.803451
- Title: SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs
- Title(参考訳): SHALE: LVLMにおける微粒化幻覚評価のためのスケーラブルベンチマーク
- Authors: Bei Yan, Zhiyuan Chen, Yuecong Min, Jie Zhang, Jiahao Wang, Xiaozhen Wang, Shiguang Shan,
- Abstract要約: LVLM(Large Vision-Language Models)は、まだ幻覚に悩まされており、入力や確立された世界知識と矛盾するコンテンツを生成する。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は、忠実度と事実性幻覚の両方を評価するために設計されたベンチマークであるSHALEを構築した。
- 参考スコア(独自算出の注目度): 52.03164192840023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite rapid advances, Large Vision-Language Models (LVLMs) still suffer from hallucinations, i.e., generating content inconsistent with input or established world knowledge, which correspond to faithfulness and factuality hallucinations, respectively. Prior studies primarily evaluate faithfulness hallucination at a coarse level (e.g., object-level) and lack fine-grained analysis. Additionally, existing benchmarks rely on costly manual curation or reused public datasets, raising concerns about scalability and data leakage. To address these limitations, we propose an automated data construction pipeline that produces scalable, controllable, and diverse evaluation data. We also design a hierarchical hallucination induction framework with input perturbations to simulate realistic noisy scenarios. Integrating these designs, we construct SHALE, a Scalable HALlucination Evaluation benchmark designed to assess both faithfulness and factuality hallucinations via a fine-grained hallucination categorization scheme. SHALE comprises over 30K image-instruction pairs spanning 12 representative visual perception aspects for faithfulness and 6 knowledge domains for factuality, considering both clean and noisy scenarios. Extensive experiments on over 20 mainstream LVLMs reveal significant factuality hallucinations and high sensitivity to semantic perturbations.
- Abstract(参考訳): 急速な進歩にもかかわらず、LVLM(Large Vision-Language Models)は幻覚に悩まされている。
先行研究は、主に粗いレベル(例えば、対象レベル)で忠実な幻覚を評価し、きめ細かい分析を欠いている。
さらに、既存のベンチマークは、コストのかかる手作業によるキュレーションや、再利用されたパブリックデータセットに依存しており、スケーラビリティやデータリークに関する懸念を提起している。
これらの制約に対処するため、スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
また、現実的な雑音シナリオをシミュレートする入力摂動を用いた階層型幻覚誘導フレームワークを設計する。
これらの設計を統合することで,より微細な幻覚分類手法を用いて,忠実度と事実性の両方の幻覚を評価するために設計されたスケーラブルなHallucination EvaluationベンチマークであるSHALEを構築する。
SHALEは、クリーンでノイズの多いシナリオを考慮し、忠実な12の視覚的認知側面と事実の6つの知識領域にまたがる30K以上のイメージインストラクションペアで構成されている。
20以上の主要なLVLMに対する大規模な実験は、有意な事実幻覚と意味摂動に対する高い感受性を示す。
関連論文リスト
- HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。