論文の概要: DetailVerifyBench: A Benchmark for Dense Hallucination Localization in Long Image Captions
- arxiv url: http://arxiv.org/abs/2604.05623v1
- Date: Tue, 07 Apr 2026 09:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.733342
- Title: DetailVerifyBench: A Benchmark for Dense Hallucination Localization in Long Image Captions
- Title(参考訳): DetailVerifyBench:ロングイメージキャプションにおける高濃度幻覚局在のベンチマーク
- Authors: Xinran Wang, Yuxuan Zhang, Xiao Zhang, Haolong Yan, Muxi Diao, Songyu Xu, Zhonghao Yan, Hongbing Li, Kongming Liang, Zhanyu Ma,
- Abstract要約: DetailVerifyBenchは、5つの異なるドメインにわたる1,000の高品質なイメージからなる厳格なベンチマークである。
平均キャプションの長さは200語を超え、複数の幻覚型のトークンレベルのアノテーションが密集しているため、長い画像キャプションの領域における正確な幻覚の局所化の最も難しいベンチマークとなっている。
- 参考スコア(独自算出の注目度): 40.08624175079378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately detecting and localizing hallucinations is a critical task for ensuring high reliability of image captions. In the era of Multimodal Large Language Models (MLLMs), captions have evolved from brief sentences into comprehensive narratives, often spanning hundreds of words. This shift exponentially increases the challenge: models must now pinpoint specific erroneous spans or words within extensive contexts, rather than merely flag response-level inconsistencies. However, existing benchmarks lack the fine granularity and domain diversity required to evaluate this capability. To bridge this gap, we introduce DetailVerifyBench, a rigorous benchmark comprising 1,000 high-quality images across five distinct domains. With an average caption length of over 200 words and dense, token-level annotations of multiple hallucination types, it stands as the most challenging benchmark for precise hallucination localization in the field of long image captioning to date. Our benchmark is available at https://zyx-hhnkh.github.io/DetailVerifyBench/.
- Abstract(参考訳): 画像キャプションの信頼性を確保するため, 幻覚の正確な検出と位置決めが重要な課題である。
MLLM(Multimodal Large Language Models)の時代、キャプションは短い文から包括的な物語へと発展し、しばしば数百語に及ぶ。
モデルは単に応答レベルの不整合をフラグするのではなく、特定の誤ったスパンや単語を広い文脈で特定する必要がある。
しかし、既存のベンチマークでは、この能力を評価するのに必要な細かい粒度とドメインの多様性が欠如している。
このギャップを埋めるために、私たちはDetailVerifyBenchを紹介します。
平均キャプションの長さは200語を超え、複数の幻覚型のトークンレベルのアノテーションが密集しているため、長い画像キャプションの領域における正確な幻覚の局所化の最も難しいベンチマークとなっている。
私たちのベンチマークはhttps://zyx-hhnkh.github.io/DetailVerifyBench/で公開されています。
関連論文リスト
- ITIScore: An Image-to-Text-to-Image Rating Framework for the Image Captioning Ability of MLLMs [81.8864792937921]
ICBenchは、12のコンテンツカテゴリをカバーする大規模な画像キャプションベンチマークであり、2K画像の短いキャプションと長いキャプションで構成されている。
我々は、詳細な評価範囲で平均世論スコア(MOS)を得るために、広範囲にわたる主観的研究を行う。
画像からテキストへ画像への変換を行うフレームワークをベースとした自動評価基準であるtextbfitiscore を提案する。
論文 参考訳(メタデータ) (2026-04-04T15:33:07Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - Mitigating Open-Vocabulary Caption Hallucinations [33.960405731583656]
オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
我々のフレームワークには、生成基盤モデルを利用してオープン語彙オブジェクト幻覚を評価する新しいベンチマークであるOpenCHAIRが含まれている。
閉じたオブジェクトリストを使わずにオープン語彙の幻覚を緩和するために,MOCHaを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:28:03Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。