論文の概要: QACE: Asking Questions to Evaluate an Image Caption
- arxiv url: http://arxiv.org/abs/2108.12560v1
- Date: Sat, 28 Aug 2021 03:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 15:00:54.449189
- Title: QACE: Asking Questions to Evaluate an Image Caption
- Title(参考訳): QACE: イメージキャプションを評価するための質問
- Authors: Hwanhee Lee, Thomas Scialom, Seunghyun Yoon, Franck Dernoncourt,
Kyomin Jung
- Abstract要約: キャプション評価のための質問応答に基づく新しい尺度QACEを提案する。
QACEは評価されたキャプションの質問を生成し、参照キャプションまたはソースイメージの質問によってその内容をチェックする。
まず,評価されたキャプションの回答を基準と比較したQACE-Refを開発し,その結果を最先端の指標と比較した。
そこで本研究では,参照ではなく,画像上で直接質問を行うQACE-Imgを提案する。
- 参考スコア(独自算出の注目度): 33.243477266997154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose QACE, a new metric based on Question Answering for
Caption Evaluation. QACE generates questions on the evaluated caption and
checks its content by asking the questions on either the reference caption or
the source image. We first develop QACE-Ref that compares the answers of the
evaluated caption to its reference, and report competitive results with the
state-of-the-art metrics. To go further, we propose QACE-Img, which asks the
questions directly on the image, instead of reference. A Visual-QA system is
necessary for QACE-Img. Unfortunately, the standard VQA models are framed as a
classification among only a few thousand categories. Instead, we propose
Visual-T5, an abstractive VQA system. The resulting metric, QACE-Img is
multi-modal, reference-less, and explainable. Our experiments show that
QACE-Img compares favorably w.r.t. other reference-less metrics. We will
release the pre-trained models to compute QACE.
- Abstract(参考訳): 本稿では,キャプション評価のための質問応答に基づく新しい尺度であるQACEを提案する。
QACEは評価されたキャプションの質問を生成し、参照キャプションまたはソースイメージの質問によってその内容をチェックする。
まず,評価されたキャプションの回答を基準と比較したQACE-Refを開発し,その結果を最先端の指標と比較した。
そこで本研究では,参照ではなく,画像上で直接質問を行うQACE-Imgを提案する。
QACE-ImgにはビジュアルQAシステムが必要である。
残念ながら、標準的なVQAモデルは、わずか数千のカテゴリに分類される。
代わりに、抽象的なVQAシステムであるVisual-T5を提案する。
結果として得られる計量 QACE-Img はマルチモーダル、参照なし、説明可能である。
実験の結果,QACE-Imgは良好にw.r.tと比較された。
他の参照なしメトリクス。
QACEを計算するためにトレーニング済みのモデルをリリースします。
関連論文リスト
- Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering [7.429984955853609]
ビデオ質問応答のための簡単なQ-ViD(ビデオQA)を提案する。
Q-ViDは、フレーム記述を用いたビデオQAに取り組むために、単一の命令対応オープンビジョン言語モデル(InstructBLIP)に依存している。
論文 参考訳(メタデータ) (2024-02-16T13:59:07Z) - Fully Authentic Visual Question Answering Dataset from Online Communities [72.0524198499719]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z) - CQ-VQA: Visual Question Answering on Categorized Questions [3.0013352260516744]
本稿では,視覚的質問応答(VQA)の課題を解決するために,新しい2階層型・エンドツーエンドモデルであるCQ-VQAを提案する。
質問分類器(QC)と呼ばれる第1レベルのCQ-VQAは、潜在的な回答検索スペースを減らすために質問を分類する。
第2のレベルは、回答予測器(AP)と呼ばれ、各質問カテゴリに対応する一組の別個の分類器から構成される。
論文 参考訳(メタデータ) (2020-02-17T06:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。