論文の概要: CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
- arxiv url: http://arxiv.org/abs/2503.12329v1
- Date: Sun, 16 Mar 2025 02:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:51.751016
- Title: CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
- Title(参考訳): CapArena: LLM時代の詳細な画像キャプチャのベンチマークと分析
- Authors: Kanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen,
- Abstract要約: 6000以上のペアワイドなキャプションバトルと高品質な人間の選好投票を備えたプラットフォームを構築します。
私たちのアリーナスタイルの評価はマイルストーンであり、GPT-4oのような主要なモデルが人間のパフォーマンスを達成または上回っていることを示している。
CapArena-Autoは詳細なキャプションのための正確で効率的な自動ベンチマークで、人間のランキングと94.3%の相関をテストあたり4ドルで達成しています。
- 参考スコア(独自算出の注目度): 41.135849912850695
- License:
- Abstract: Image captioning has been a longstanding challenge in vision-language research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate detailed and comprehensive image descriptions. However, benchmarking the quality of such captions remains unresolved. This paper addresses two key questions: (1) How well do current VLMs actually perform on image captioning, particularly compared to humans? We built CapArena, a platform with over 6000 pairwise caption battles and high-quality human preference votes. Our arena-style evaluation marks a milestone, showing that leading models like GPT-4o achieve or even surpass human performance, while most open-source models lag behind. (2) Can automated metrics reliably assess detailed caption quality? Using human annotations from CapArena, we evaluate traditional and recent captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while some metrics (e.g., METEOR) show decent caption-level agreement with humans, their systematic biases lead to inconsistencies in model ranking. In contrast, VLM-as-a-Judge demonstrates robust discernment at both the caption and model levels. Building on these insights, we release CapArena-Auto, an accurate and efficient automated benchmark for detailed captioning, achieving 94.3% correlation with human rankings at just $4 per test. Data and resources will be open-sourced at https://caparena.github.io.
- Abstract(参考訳): 画像キャプションは視覚言語研究における長年の課題である。
LLMの台頭に伴い、現代のビジョン・ランゲージ・モデル(VLM)は詳細で包括的な画像記述を生成する。
しかし、これらのキャプションの品質のベンチマークは未解決のままである。
本稿は,(1)現在のVLMが画像キャプション,特にヒトと比較して,実際にどの程度機能するのか,という2つの重要な疑問に対処する。
CapArenaを作ったのは、6000以上のキャプション戦と高品質な人選投票のプラットホームだ。
私たちのアリーナスタイルの評価はマイルストーンであり、GPT-4oのような主要なモデルが人間のパフォーマンスを達成または上回っているのに対して、ほとんどのオープンソースモデルは遅れを取っていることを示している。
2) 自動指標は詳細なキャプション品質を確実に評価できるか?
CapArenaの人間のアノテーションを用いて、VLM-as-a-Judgeと同様に、従来のキャプションメトリクスと最近のキャプションメトリクスを評価した。
分析の結果,いくつかの指標(例えばMETEOR)は,人間との適切なキャプションレベルの一致を示すが,その体系的偏りは,モデルランキングの不整合をもたらすことがわかった。
対照的に、VLM-as-a-Judgeはキャプションとモデルレベルで堅牢な識別を示す。
これらの洞察に基づいて、我々は詳細なキャプションのための正確で効率的な自動ベンチマークであるCapArena-Autoをリリースした。
データとリソースはhttps://caparena.github.io.comでオープンソース化される。
関連論文リスト
- AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - Wolf: Captioning Everything with a World Summarization Framework [149.03339991072514]
Wolfは、Mix-of-expertsアプローチを採用した自動キャプションフレームワークである。
我々のフレームワークは様々なレベルの情報を取り込み、それらを効率的に要約する。
Wolfは最先端のアプローチに比べてキャプション性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-07-26T17:59:09Z) - Benchmarking and Improving Detail Image Caption [12.078715675876674]
視覚言語モデル (LVLM) は視覚理解の基本的な課題とされてきた。
本稿では,人間専門家が注釈付けした高品質な評価データセットをキュレートすることで,詳細な画像キャプションタスクのベンチマークを行う。
また、CAPTUREと呼ばれるより信頼性の高いキャプション評価指標も設計する。
論文 参考訳(メタデータ) (2024-05-29T13:54:12Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。