論文の概要: Multiple-Question Multiple-Answer Text-VQA
- arxiv url: http://arxiv.org/abs/2311.08622v1
- Date: Wed, 15 Nov 2023 01:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:38:32.823971
- Title: Multiple-Question Multiple-Answer Text-VQA
- Title(参考訳): マルチクエスト多重回答テキストVQA
- Authors: Peng Tang, Srikar Appalaraju, R. Manmatha, Yusheng Xie, Vijay
Mahadevan
- Abstract要約: Multi-Question Multiple-Answer (MQMA) は、エンコーダ・デコーダ変換モデルでテキストVQAを行うための新しいアプローチである。
MQMAは、エンコーダの入力として複数の質問とコンテンツを取り込み、デコーダの複数の回答を自動回帰的に予測する。
本稿では,複数の質問や内容と関連する回答の整合性や記述をモデルに教える,新しいMQMA事前学習タスクを提案する。
- 参考スコア(独自算出の注目度): 19.228969692887603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Multiple-Question Multiple-Answer (MQMA), a novel approach to do
text-VQA in encoder-decoder transformer models. The text-VQA task requires a
model to answer a question by understanding multi-modal content: text
(typically from OCR) and an associated image. To the best of our knowledge,
almost all previous approaches for text-VQA process a single question and its
associated content to predict a single answer. In order to answer multiple
questions from the same image, each question and content are fed into the model
multiple times. In contrast, our proposed MQMA approach takes multiple
questions and content as input at the encoder and predicts multiple answers at
the decoder in an auto-regressive manner at the same time. We make several
novel architectural modifications to standard encoder-decoder transformers to
support MQMA. We also propose a novel MQMA denoising pre-training task which is
designed to teach the model to align and delineate multiple questions and
content with associated answers. MQMA pre-trained model achieves
state-of-the-art results on multiple text-VQA datasets, each with strong
baselines. Specifically, on OCR-VQA (+2.5%), TextVQA (+1.4%), ST-VQA (+0.6%),
DocVQA (+1.1%) absolute improvements over the previous state-of-the-art
approaches.
- Abstract(参考訳): 我々は,エンコーダ・デコーダ変換器モデルにおいて,テキストVQAを行う新しい手法であるMultiple-Question Multiple-Answer(MQMA)を提案する。
テキスト-VQAタスクは、複数のモーダルコンテンツ(典型的にはOCRから)と関連するイメージ)を理解することによって、質問に答えるモデルを必要とする。
我々の知る限りでは、テキストVQAに対するこれまでのほとんどすべてのアプローチは、単一の質問とその関連したコンテンツを処理し、1つの回答を予測する。
同じイメージから複数の質問に答えるために、各質問とコンテンツは何度もモデルに送られます。
対照的に,提案するmqmaアプローチでは,エンコーダの入力として複数の質問と内容を取り込み,同時にデコーダの応答を自動回帰的に予測する。
MQMAをサポートする標準的なエンコーダ・デコーダ変換器に対して,新しいアーキテクチャ変更を行った。
また,複数の質問や内容と関連する回答の整合性や記述をモデルに教えることを目的とした,新しいMQMA事前学習タスクを提案する。
MQMA事前トレーニングモデルは、複数のテキスト-VQAデータセット上で、それぞれ強力なベースラインを持つ最先端の結果を達成する。
具体的には、OCR-VQA(+2.5%)、TextVQA(+1.4%)、ST-VQA(+0.6%)、DocVQA(+1.1%)が従来の最先端アプローチよりも絶対的に改善した。
関連論文リスト
- SparrowVQE: Visual Question Explanation for Course Content Understanding [12.926309478839652]
本稿では、視覚的質問説明(VQE)を導入し、VQAの詳細な説明を提供する能力を高める。
我々は,マルチモーダル・プレトレーニング,インストラクション・チューニング,ドメインファインチューニングという3段階のトレーニング機構でモデルを訓練した。
実験結果から,我々のSparrowVQEは,開発したMLVQEデータセットの性能向上と,他の5つのベンチマークVQAデータセットの最先端メソッドのパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2024-11-12T03:25:33Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - ParaQA: A Question Answering Dataset with Paraphrase Responses for
Single-Turn Conversation [5.087932295628364]
ParaQAは知識グラフ(KG)上の1ターン会話のための複数のパラフレーズ応答を持つデータセットである
データセットは半自動的なフレームワークを使って、バックトランスレーションのようなテクニックを使って、さまざまな回答のパラフレージングを生成する。
論文 参考訳(メタデータ) (2021-03-13T18:53:07Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。