論文の概要: Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline
- arxiv url: http://arxiv.org/abs/2506.07631v1
- Date: Mon, 09 Jun 2025 10:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.919008
- Title: Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline
- Title(参考訳): 詳細キャプションの非ブロックきめ細粒度評価--オートレータと批判・修正パイプラインの解説-
- Authors: Brian Gordon, Yonatan Bitton, Andreea Marzoca, Yasumasa Onoe, Xiao Wang, Daniel Cohen-Or, Idan Szpektor,
- Abstract要約: VNLI-Critiqueは,自動文レベルの事実性分類と批判生成のためのモデルである。
1) VNLI-CritiqueはM-HalDetectベンチマークの最先端性能によって検証された堅牢な一般化を実証し、(2) VNLI-CritiqueによるDOCCI-Critique向けAutoRaterは信頼性の高いVLMランキングを提供し、人間の事実性判断と優れた整合性を示す。
- 参考スコア(独自算出の注目度): 58.832237984587664
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Vision-Language Models (VLMs) now generate highly detailed, paragraphlength image captions, yet evaluating their factual accuracy remains challenging. Current methods often miss fine-grained errors, being designed for shorter texts or lacking datasets with verified inaccuracies. We introduce DOCCI-Critique, a benchmark with 1,400 VLM-generated paragraph captions (100 images, 14 VLMs) featuring over 10,216 sentence-level human annotations of factual correctness and explanatory rationales for errors, all within paragraph context. Building on this, we develop VNLI-Critique, a model for automated sentence-level factuality classification and critique generation. We highlight three key applications: (1) VNLI-Critique demonstrates robust generalization, validated by state-of-the-art performance on the M-HalDetect benchmark and strong results in CHOCOLATE claim verification. (2) The VNLI-Critique driven AutoRater for DOCCI-Critique provides reliable VLM rankings, showing excellent alignment with human factuality judgments (e.g., 0.98 Spearman). (3) An innovative Critic-and-Revise pipeline, where critiques from VNLI-Critique guide LLM-based corrections, achieves substantial improvements in caption factuality (e.g., a 46% gain on DetailCaps-4870). Our work offers a crucial benchmark alongside practical tools, designed to significantly elevate the standards for fine-grained evaluation and foster the improvement of VLM image understanding. Project page: https://google.github.io/unblocking-detail-caption
- Abstract(参考訳): VLM(Large Vision-Language Models)は段落画像のキャプションを高精度に生成するが、実際の精度を評価することは困難である。
現在の手法では、短いテキストのために設計されたり、検証された不正確なデータセットが欠如しているため、細かいエラーを見逃すことが多い。
DOCCI-Critiqueは1,400のVLM生成段落(画像100枚、VLM14枚)のベンチマークで,10,216以上の文レベルの人文的注釈と誤りの説明的合理性を示す。
そこで我々は,自動文レベルの事実性分類と批判生成のためのモデルであるVNLI-Critiqueを開発した。
1) VNLI-Critiqueは、M-HalDetectベンチマークの最先端性能とCHOCOLATEクレーム検証の強力な結果により、堅牢な一般化を実証する。
2) VNLI-Critique によるDOCCI-Critique のための AutoRater は信頼性の高い VLM ランキングを提供し,人間の事実性判断(例: 0.98 Spearman)と優れた整合性を示す。
(3) VNLI-Critique Guide LLM-based corrects からの批判がキャプションの事実性(例:DetailCaps-4870の46%増加)を大幅に改善する革新的な批判・修正パイプライン。
本研究は,精細な評価基準を著しく高め,VLM画像理解の向上を図るために,実用ツールとともに重要なベンチマークを提供する。
プロジェクトページ: https://google.github.io/unblocking-detail-caption
関連論文リスト
- Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。
このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。
我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:49:44Z) - DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。
Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文 参考訳(メタデータ) (2025-05-01T17:03:17Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning [112.35483894933904]
我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。
VISCOは密度が高くきめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価する必要がある。
LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
論文 参考訳(メタデータ) (2024-12-03T05:04:49Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。