論文の概要: HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning
- arxiv url: http://arxiv.org/abs/2603.15253v1
- Date: Mon, 16 Mar 2026 13:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.311358
- Title: HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning
- Title(参考訳): HalDec-Bench:画像キャプチャにおける幻覚検出器のベンチマーク
- Authors: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku,
- Abstract要約: 字幕中の幻覚検出(HalDec)は、画像内容とテキストを正しく整列する視覚言語モデルの能力を評価する。
HalDec-Benchは、幻覚検出器を原理的かつ解釈可能な方法で評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 27.133240420463807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination detection in captions (HalDec) assesses a vision-language model's ability to correctly align image content with text by identifying errors in captions that misrepresent the image. Beyond evaluation, effective hallucination detection is also essential for curating high-quality image-caption pairs used to train VLMs. However, the generalizability of VLMs as hallucination detectors across different captioning models and hallucination types remains unclear due to the lack of a comprehensive benchmark. In this work, we introduce HalDec-Bench, a benchmark designed to evaluate hallucination detectors in a principled and interpretable manner. HalDec-Bench contains captions generated by diverse VLMs together with human annotations indicating the presence of hallucinations, detailed hallucination-type categories, and segment-level labels. The benchmark provides tasks with a wide range of difficulty levels and reveals performance differences across models that are not visible in existing multimodal reasoning or alignment benchmarks. Our analysis further uncovers two key findings. First, detectors tend to recognize sentences appearing at the beginning of a response as correct, regardless of their actual correctness. Second, our experiments suggest that dataset noise can be substantially reduced by using strong VLMs as filters while employing recent VLMs as caption generators. Our project page is available at https://dahlian00.github.io/HalDec-Bench-Page/.
- Abstract(参考訳): 字幕における幻覚検出 (HalDec) は、イメージを誤って表現する字幕の誤りを識別することにより、視覚モデルが画像内容とテキストを正しく整列する能力を評価する。
評価以外にも、VLMのトレーニングに使用される高品質な画像キャプチャペアのキュレーションには、効果的な幻覚検出が不可欠である。
しかしながら、様々なキャプションモデルと幻覚型にまたがる幻覚検出器としてのVLMの一般化性は、包括的なベンチマークが欠如していることから、まだ不明である。
本研究では,HalDec-Benchを原理的かつ解釈可能な方法で幻覚検知器の評価を行うベンチマークについて紹介する。
HalDec-Benchには、さまざまなVLMによって生成されたキャプションと、幻覚の存在を示す人間のアノテーション、詳細な幻覚型カテゴリ、セグメントレベルのラベルが含まれている。
このベンチマークはタスクに幅広い難易度を与え、既存のマルチモーダル推論やアライメントベンチマークでは見えないモデル間でのパフォーマンスの違いを明らかにする。
我々の分析によりさらに2つの重要な発見が明らかになった。
まず、検知器は、実際の正確性に関係なく、応答の開始時に現れる文章を正しいものと認識する傾向にある。
第2に,最近のVLMをキャプションジェネレータとして使用しながら,強いVLMをフィルタとして使用することにより,データセットノイズを大幅に低減できることを示す。
私たちのプロジェクトページはhttps://dahlian00.github.io/HalDec-Bench-Page/で公開されています。
関連論文リスト
- When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance [36.230615314462426]
我々は、言語バイアスが幻覚にどのように寄与するかを分析し、次にCMG(Cross-Modal Guidance)を導入する。
CMGは、オリジナルのモデルの出力と劣化した視覚言語的注意を持つものとの違いを活用することで幻覚に対処する。
CMGは幻覚特異的なベンチマークで異なるVLMの性能を改善し、効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2025-10-12T06:17:13Z) - Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。
これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。
実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文 参考訳(メタデータ) (2025-08-03T03:11:48Z) - Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision-Language Models [5.545334160894197]
VLM(Vision-Language Models)は、医療領域において、医療画像と臨床言語とのギャップを埋めることによって、ますます人気が高まっている。
しかしながら、幻覚(幻覚)-視覚内容と矛盾する記述を生成する傾向-は、VLMにおいて重要な問題である。
VLMによる消化管画像解析と幻覚の研究を容易にするため,マルチモーダル画像テキストGIデータセットをキュレートする。
このデータセットは2段階のパイプラインを使用して作成される。まず、Kvasir-v2画像の詳細な医療報告はChatGPTを使用して生成される。
論文 参考訳(メタデータ) (2025-05-11T14:54:11Z) - Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,大規模視覚言語モデルにおける幻覚の重要な要因を明らかにする。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。