論文の概要: Structured Multimodal Attentions for TextVQA
- arxiv url: http://arxiv.org/abs/2006.00753v2
- Date: Fri, 26 Nov 2021 03:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:15:40.957830
- Title: Structured Multimodal Attentions for TextVQA
- Title(参考訳): TextVQAのための構造化マルチモーダルアテンション
- Authors: Chenyu Gao and Qi Zhu and Peng Wang and Hui Li and Yuliang Liu and
Anton van den Hengel and Qi Wu
- Abstract要約: 上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
- 参考スコア(独自算出の注目度): 57.71060302874151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an end-to-end structured multimodal attention (SMA)
neural network to mainly solve the first two issues above. SMA first uses a
structural graph representation to encode the object-object, object-text and
text-text relationships appearing in the image, and then designs a multimodal
graph attention network to reason over it. Finally, the outputs from the above
modules are processed by a global-local attentional answering module to produce
an answer splicing together tokens from both OCR and general vocabulary
iteratively by following M4C. Our proposed model outperforms the SoTA models on
TextVQA dataset and two tasks of ST-VQA dataset among all models except
pre-training based TAP. Demonstrating strong reasoning ability, it also won
first place in TextVQA Challenge 2020. We extensively test different OCR
methods on several reasoning models and investigate the impact of gradually
increased OCR performance on TextVQA benchmark. With better OCR results,
different models share dramatic improvement over the VQA accuracy, but our
model benefits most blessed by strong textual-visual reasoning ability. To
grant our method an upper bound and make a fair testing base available for
further works, we also provide human-annotated ground-truth OCR annotations for
the TextVQA dataset, which were not given in the original release. The code and
ground-truth OCR annotations for the TextVQA dataset are available at
https://github.com/ChenyuGAO-CS/SMA
- Abstract(参考訳): 本稿では,上述の2つの問題を主に解くために,エンドツーエンドのマルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
最後に、上記モジュールからの出力をグローバルな注目応答モジュールで処理し、M4Cに従うことにより、OCRおよび一般語彙の両方からトークンを反復的にスプライシングする回答を生成する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
強力な推論能力を示し、2020年のTextVQA Challengeでも優勝した。
いくつかの推論モデル上で異なるOCR手法を広範囲に検証し,TextVQAベンチマークにおけるOCR性能の増大の影響について検討した。
OCRの結果が良くなると、VQAの精度よりも大幅に改善されるが、我々のモデルは強いテキスト・視覚的推論能力に恵まれる。
また,本手法を上界に付与し,さらなる研究のために公正なテストベースを提供するため,当初提供されなかったTextVQAデータセットに対して,人手による注釈付きOCRアノテーションも提供する。
TextVQAデータセットのコードと基本的なOCRアノテーションはhttps://github.com/ChenyuGAO-CS/SMAで入手できる。
関連論文リスト
- Separate and Locate: Rethink the Text in Text-based Visual Question
Answering [15.84929733099542]
テキストの文脈的手がかりを探索し,OCRテキスト間の空間的関係を構築するための空間的位置埋め込みを設計するための分離・ロケート(SaL)を提案する。
我々のSaLモデルは、TextVQAとST-VQAデータセットでベースラインモデルを4.44%、精度3.96%で上回る。
論文 参考訳(メタデータ) (2023-08-31T01:00:59Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Towards Escaping from Language Bias and OCR Error: Semantics-Centered
Text Visual Question Answering [14.010472385359163]
シーンイメージのテキストは、シーン理解と推論のための重要な情報を伝える。
現在のTextVQAモデルはテキスト中心ではなく、いくつかの制限に悩まされている。
本稿では,インスタンスレベルのコントラスト型セマンティックな予測モジュールとセマンティックス中心のトランスフォーマーモジュールからなるセマンティックス中心ネットワーク(SC-Net)を提案する。
論文 参考訳(メタデータ) (2022-03-24T08:21:41Z) - LaTr: Layout-Aware Transformer for Scene-Text VQA [8.390314291424263]
STVQA(Scene Text Visual Question Answering)のための新しいアーキテクチャを提案する。
スキャンした文書にこの事前学習方式を適用することは、自然画像を使用するよりも、ある程度の利点があることを示す。
既存の手法と比較して,本手法は語彙なし復号化を行い,トレーニング語彙をはるかに超越した一般化を行う。
論文 参考訳(メタデータ) (2021-12-23T12:41:26Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。