論文の概要: What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Coverage of MLLMs
- arxiv url: http://arxiv.org/abs/2502.14914v1
- Date: Wed, 19 Feb 2025 07:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 21:37:38.914972
- Title: What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Coverage of MLLMs
- Title(参考訳): 良いキャプションとは何か? MLLMの正確さと包括性を評価するための総合的ビジュアルキャプションベンチマーク
- Authors: Zhihang Liu, Chen-Wei Xie, Bin Wen, Feiwu Yu, Jixuan Chen, Boqiang Zhang, Nianzu Yang, Pandeng Li, Yun Zheng, Hongtao Xie,
- Abstract要約: 包括的ビジュアルキャプションベンチマークであるCV-CapBenchを提案する。
CV-CapBenchは、6つのビューと13次元のキャプション品質を体系的に評価する。
- 参考スコア(独自算出の注目度): 31.628388563011185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have rendered traditional visual captioning benchmarks obsolete, as they primarily evaluate short descriptions with outdated metrics. While recent benchmarks address these limitations by decomposing captions into visual elements and adopting model-based evaluation, they remain incomplete-overlooking critical aspects, while providing vague, non-explanatory scores. To bridge this gap, we propose CV-CapBench, a Comprehensive Visual Caption Benchmark that systematically evaluates caption quality across 6 views and 13 dimensions. CV-CapBench introduces precision, recall, and hit rate metrics for each dimension, uniquely assessing both correctness and coverage. Experiments on leading MLLMs reveal significant capability gaps, particularly in dynamic and knowledge-intensive dimensions. These findings provide actionable insights for future research. The code and data will be released.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、従来の視覚的キャプションのベンチマークを時代遅れにした。
最近のベンチマークでは、キャプションを視覚的要素に分解し、モデルに基づく評価を採用することでこれらの制限に対処している。
このギャップを埋めるために,CV-CapBenchを提案する。CV-CapBenchは6ビューと13次元のキャプション品質を体系的に評価する包括的ビジュアルキャプションベンチマークである。
CV-CapBenchは、各次元の精度、リコール、ヒットレートのメトリクスを導入し、正確性とカバレッジの両方を独自に評価する。
MLLMを先導する実験では、特に動的および知識集約的な次元において、重要な能力ギャップが示される。
これらの知見は将来の研究に有効である。
コードとデータはリリースされます。
関連論文リスト
- The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o [15.929657348606018]
G-VEvalはG-Evalにインスパイアされた新しい測度であり、新しい GPT-4o で駆動される。
G-VEvalは、大規模なマルチモーダルモデルでチェーン・オブ・シント推論を使用しており、参照フリー、参照オンリー、組み合わせの3つのモードをサポートしている。
また,ビデオキャプション評価のための新しいデータセットであるMSVD-Evalを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:23:12Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Benchmarking and Improving Detail Image Caption [12.078715675876674]
視覚言語モデル (LVLM) は視覚理解の基本的な課題とされてきた。
本稿では,人間専門家が注釈付けした高品質な評価データセットをキュレートすることで,詳細な画像キャプションタスクのベンチマークを行う。
また、CAPTUREと呼ばれるより信頼性の高いキャプション評価指標も設計する。
論文 参考訳(メタデータ) (2024-05-29T13:54:12Z) - Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-28T01:29:36Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。