論文の概要: What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Coverage of MLLMs
- arxiv url: http://arxiv.org/abs/2502.14914v1
- Date: Wed, 19 Feb 2025 07:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:36.092271
- Title: What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Coverage of MLLMs
- Title(参考訳): 良いキャプションとは何か? MLLMの正確さと包括性を評価するための総合的ビジュアルキャプションベンチマーク
- Authors: Zhihang Liu, Chen-Wei Xie, Bin Wen, Feiwu Yu, Jixuan Chen, Boqiang Zhang, Nianzu Yang, Pandeng Li, Yun Zheng, Hongtao Xie,
- Abstract要約: 包括的ビジュアルキャプションベンチマークであるCV-CapBenchを提案する。
CV-CapBenchは、6つのビューと13次元のキャプション品質を体系的に評価する。
- 参考スコア(独自算出の注目度): 31.628388563011185
- License:
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have rendered traditional visual captioning benchmarks obsolete, as they primarily evaluate short descriptions with outdated metrics. While recent benchmarks address these limitations by decomposing captions into visual elements and adopting model-based evaluation, they remain incomplete-overlooking critical aspects, while providing vague, non-explanatory scores. To bridge this gap, we propose CV-CapBench, a Comprehensive Visual Caption Benchmark that systematically evaluates caption quality across 6 views and 13 dimensions. CV-CapBench introduces precision, recall, and hit rate metrics for each dimension, uniquely assessing both correctness and coverage. Experiments on leading MLLMs reveal significant capability gaps, particularly in dynamic and knowledge-intensive dimensions. These findings provide actionable insights for future research. The code and data will be released.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、従来の視覚的キャプションのベンチマークを時代遅れにした。
最近のベンチマークでは、キャプションを視覚的要素に分解し、モデルに基づく評価を採用することでこれらの制限に対処している。
このギャップを埋めるために,CV-CapBenchを提案する。CV-CapBenchは6ビューと13次元のキャプション品質を体系的に評価する包括的ビジュアルキャプションベンチマークである。
CV-CapBenchは、各次元の精度、リコール、ヒットレートのメトリクスを導入し、正確性とカバレッジの両方を独自に評価する。
MLLMを先導する実験では、特に動的および知識集約的な次元において、重要な能力ギャップが示される。
これらの知見は将来の研究に有効である。
コードとデータはリリースされます。
関連論文リスト
- Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o [15.929657348606018]
G-VEvalはG-Evalにインスパイアされた新しい測度であり、新しい GPT-4o で駆動される。
G-VEvalは、大規模なマルチモーダルモデルでチェーン・オブ・シント推論を使用しており、参照フリー、参照オンリー、組み合わせの3つのモードをサポートしている。
また,ビデオキャプション評価のための新しいデータセットであるMSVD-Evalを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:23:12Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - VisEval: A Benchmark for Data Visualization in the Era of Large Language Models [12.077276008688065]
事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。
本稿では,新しいNL2VISベンチマークであるVisEvalを提案する。
このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。
論文 参考訳(メタデータ) (2024-07-01T05:35:30Z) - Benchmarking and Improving Detail Image Caption [12.078715675876674]
視覚言語モデル (LVLM) は視覚理解の基本的な課題とされてきた。
本稿では,人間専門家が注釈付けした高品質な評価データセットをキュレートすることで,詳細な画像キャプションタスクのベンチマークを行う。
また、CAPTUREと呼ばれるより信頼性の高いキャプション評価指標も設計する。
論文 参考訳(メタデータ) (2024-05-29T13:54:12Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。