Fugu-MT 論文翻訳(概要): CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness

論文の概要: CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness

arxiv url: http://arxiv.org/abs/2502.14914v3
Date: Fri, 06 Jun 2025 09:23:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:42.846535
Title: CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness
Title（参考訳）: 可視性: 正確性と粗さの両方を評価するための総合的なビジュアルキャプションベンチマーク
Authors: Zhihang Liu, Chen-Wei Xie, Bin Wen, Feiwu Yu, Jixuan Chen, Pandeng Li, Boqiang Zhang, Nianzu Yang, Yinglu Li, Zuan Gao, Yun Zheng, Hongtao Xie,
Abstract要約: CAPabilityは、6つの重要なビューにまたがる12次元にわたる視覚的キャプションを評価するための総合的なベンチマークである。我々は、生成したキャプションを評価するために、視覚要素アノテーションで1万1千近い人注画像や動画をキュレートした。
参考スコア（独自算出の注目度）: 30.44039177018447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual captioning benchmarks have become outdated with the emergence of modern multimodal large language models (MLLMs), as the brief ground-truth sentences and traditional metrics fail to assess detailed captions effectively. While recent benchmarks attempt to address this by focusing on keyword extraction or object-centric evaluation, they remain limited to vague-view or object-view analyses and incomplete visual element coverage. In this paper, we introduce CAPability, a comprehensive multi-view benchmark for evaluating visual captioning across 12 dimensions spanning six critical views. We curate nearly 11K human-annotated images and videos with visual element annotations to evaluate the generated captions. CAPability stably assesses both the correctness and thoroughness of captions with \textit{precision} and \textit{hit} metrics. By converting annotations to QA pairs, we further introduce a heuristic metric, \textit{know but cannot tell} ($K\bar{T}$), indicating a significant performance gap between QA and caption capabilities. Our work provides a holistic analysis of MLLMs' captioning abilities, as we identify their strengths and weaknesses across various dimensions, guiding future research to enhance specific aspects of their capabilities.
Abstract（参考訳）: ビジュアルキャプションベンチマークは、短い接頭辞と伝統的な指標が詳細なキャプションを効果的に評価できないため、現代のマルチモーダル大言語モデル(MLLM)の出現とともに時代遅れになっている。最近のベンチマークでは、キーワード抽出やオブジェクト中心の評価に焦点をあててこの問題に対処しようとしているが、あいまいなビューやオブジェクトビューの分析や、不完全なビジュアル要素のカバレッジに制限されている。本稿では、6つの重要なビューにまたがる12次元の視覚的キャプションを評価するための総合的マルチビューベンチマークであるCAPabilityを紹介する。我々は、生成したキャプションを評価するために、視覚要素アノテーションで1万1千近い人注画像や動画をキュレートした。 CAPabilityは、字幕の正確性と完全性の両方を、 \textit{precision} と \textit{hit} メトリクスで安定的に評価する。アノテーションをQAペアに変換することにより、さらにヒューリスティックなメトリックである『textit{know but cannot tell}』(K\bar{T}$)を導入する。本研究は,MLLMのキャプティング能力に関する総合的な分析であり,各次元の強さと弱点を同定し,その能力の具体的側面を高めるための今後の研究を導くものである。

関連論文リスト

IF-VidCap: Can Video Caption Models Follow Instructions? [44.2412700621584]
制御可能なビデオキャプションを評価するための新しいベンチマークであるIF-VidCapを紹介する。 IF-VidCapには、フォーマットの正しさとコンテンツの正しさの2つの側面でキャプションを評価する、体系的なフレームワークが組み込まれている。
論文参考訳（メタデータ） (2025-10-21T15:25:08Z)
The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives [37.02849705736749]
機械生成画像キャプションの評価は複雑で進化する課題である。 MLLM(Multimodal Large Language Models)の出現に伴い、画像キャプションがコアタスクとなっている。本調査では,画像キャプション評価の進歩について概観する。
論文参考訳（メタデータ） (2025-03-18T18:03:56Z)
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。 DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。 DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文参考訳（メタデータ） (2025-03-10T22:53:56Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o [15.929657348606018]
G-VEvalはG-Evalにインスパイアされた新しい測度であり、新しい GPT-4o で駆動される。 G-VEvalは、大規模なマルチモーダルモデルでチェーン・オブ・シント推論を使用しており、参照フリー、参照オンリー、組み合わせの3つのモードをサポートしている。また,ビデオキャプション評価のための新しいデータセットであるMSVD-Evalを提案する。
論文参考訳（メタデータ） (2024-12-18T09:23:12Z)
Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文参考訳（メタデータ） (2024-12-11T18:37:42Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
Benchmarking and Improving Detail Image Caption [12.078715675876674]
視覚言語モデル (LVLM) は視覚理解の基本的な課題とされてきた。本稿では,人間専門家が注釈付けした高品質な評価データセットをキュレートすることで,詳細な画像キャプションタスクのベンチマークを行う。また、CAPTUREと呼ばれるより信頼性の高いキャプション評価指標も設計する。
論文参考訳（メタデータ） (2024-05-29T13:54:12Z)
Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文参考訳（メタデータ） (2024-02-28T01:29:36Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文参考訳（メタデータ） (2021-11-17T07:09:59Z)
Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文参考訳（メタデータ） (2020-12-14T08:36:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。