論文の概要: CaptionQA: Is Your Caption as Useful as the Image Itself?
- arxiv url: http://arxiv.org/abs/2511.21025v1
- Date: Wed, 26 Nov 2025 03:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.95208
- Title: CaptionQA: Is Your Caption as Useful as the Image Itself?
- Title(参考訳): CaptionQA: キャプションは画像と同じくらい便利か?
- Authors: Shijia Yang, Yunong Liu, Bohan Zhai, Ximeng Sun, Zicheng Liu, Emad Barsoum, Manling Li, Chenfeng Xu,
- Abstract要約: 画像キャプションは、検索、レコメンデーション、マルチステップエージェント推論パイプラインなどのシステムにおける視覚的コンテンツの効率的なサロゲートとして機能する。
モデル生成キャプションを評価するためのユーティリティベースのベンチマークであるCaptionQAを提案する。
新しいドメインに拡張するためのオープンソースのパイプラインとともに、CaptionQAをリリースします。
- 参考スコア(独自算出の注目度): 39.852352842429376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.
- Abstract(参考訳): 画像キャプションは、検索、レコメンデーション、マルチステップエージェント推論パイプラインなどのマルチモーダルシステムにおける視覚的コンテンツの効率的なサロゲートとして機能する。
しかし、現在の評価のプラクティスは、根本的な疑問を見逃している。
そこで本研究では,下流タスクのサポート方法によってキャプションの品質が測定されるモデル生成キャプションを評価するために,ユーティリティベースのベンチマークであるCaptionQAを提案する。
CaptionQAは、Natural、Document、Eコマース、Embodied AIの4つのドメインをカバーする拡張可能なドメイン依存ベンチマークである。
CaptionQAは33,027件の注釈付き複数選択質問(平均で50.3件)を作成。
評価プロトコルにおいて,LLM はキャプションのみを用いてこれらの疑問に答え,キャプションが画像レベルのユーティリティを保持し,下流 LLM が有効であるかどうかを直接測定する。
最先端のMLLMを評価することで、画像とキャプションユーティリティの間にかなりのギャップが明らかになる。
特に、従来のイメージQAベンチマークでほぼ同一のモデルでは、キャプションユーティリティが最大32%低下している。
新しいドメインに拡張するためのオープンソースのパイプラインとともに、CaptionQAをリリースします。
コードはhttps://github.com/bronyayang/CaptionQA.comで公開されている。
関連論文リスト
- SCRA-VQA: Summarized Caption-Rerank for Augmented Large Language Models in Visual Question Answering [15.985057987715974]
我々は、SCRA-VQA(Summarized Caption-Rerank Augmented VQA)を提案する。
SCRA-VQAは、イメージをキャプションに変換するために、事前訓練された視覚言語モデルを使用している。
キャプションの文脈的な例を生成し、同時にそれらを要約して並べ替え、無関係な情報を除外する。
論文 参考訳(メタデータ) (2025-09-25T08:01:28Z) - Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - PromptCap: Prompt-Guided Task-Aware Image Captioning [118.39243917422492]
本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
論文 参考訳(メタデータ) (2022-11-15T19:07:53Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。