論文の概要: LaTr: Layout-Aware Transformer for Scene-Text VQA
- arxiv url: http://arxiv.org/abs/2112.12494v2
- Date: Fri, 24 Dec 2021 11:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 12:45:31.241765
- Title: LaTr: Layout-Aware Transformer for Scene-Text VQA
- Title(参考訳): latr: シーンテキストvqaのためのレイアウト対応トランスフォーマー
- Authors: Ali Furkan Biten, Ron Litman, Yusheng Xie, Srikar Appalaraju, R.
Manmatha
- Abstract要約: STVQA(Scene Text Visual Question Answering)のための新しいアーキテクチャを提案する。
スキャンした文書にこの事前学習方式を適用することは、自然画像を使用するよりも、ある程度の利点があることを示す。
既存の手法と比較して,本手法は語彙なし復号化を行い,トレーニング語彙をはるかに超越した一般化を行う。
- 参考スコア(独自算出の注目度): 8.390314291424263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel multimodal architecture for Scene Text Visual Question
Answering (STVQA), named Layout-Aware Transformer (LaTr). The task of STVQA
requires models to reason over different modalities. Thus, we first investigate
the impact of each modality, and reveal the importance of the language module,
especially when enriched with layout information. Accounting for this, we
propose a single objective pre-training scheme that requires only text and
spatial cues. We show that applying this pre-training scheme on scanned
documents has certain advantages over using natural images, despite the domain
gap. Scanned documents are easy to procure, text-dense and have a variety of
layouts, helping the model learn various spatial cues (e.g. left-of, below
etc.) by tying together language and layout information. Compared to existing
approaches, our method performs vocabulary-free decoding and, as shown,
generalizes well beyond the training vocabulary. We further demonstrate that
LaTr improves robustness towards OCR errors, a common reason for failure cases
in STVQA. In addition, by leveraging a vision transformer, we eliminate the
need for an external object detector. LaTr outperforms state-of-the-art STVQA
methods on multiple datasets. In particular, +7.6% on TextVQA, +10.8% on ST-VQA
and +4.0% on OCR-VQA (all absolute accuracy numbers).
- Abstract(参考訳): 本稿では,Scene Text Visual Question Answering (STVQA) のための新しいマルチモーダルアーキテクチャ,Layout-Aware Transformer (LaTr) を提案する。
STVQAのタスクは、異なるモダリティを推論するモデルを必要とする。
そこで我々はまず,各モダリティの影響を調査し,特にレイアウト情報に富んだ言語モジュールの重要性を明らかにする。
そこで本研究では,テキストと空間的手がかりのみを必要とする単目的事前学習方式を提案する。
スキャンした文書にこの事前学習方式を適用することは、ドメイン間差にもかかわらず、自然画像を使用するよりも一定の利点があることを示す。
スキャンされた文書は調達が容易で、テキストセンスがあり、様々なレイアウトを持ち、言語とレイアウト情報を結びつけることで、モデルが様々な空間的手がかり(例えば左、下等)を学ぶのを助ける。
既存の手法と比較すると,この手法は語彙を含まない復号化を行い,訓練語彙をはるかに一般化する。
さらに我々は,LaTrがOCRエラーに対する堅牢性を改善することを実証した。
さらに,視覚変換器を活用することで,外部物体検出装置の必要性を解消する。
LaTrは、複数のデータセット上で最先端のSTVQAメソッドより優れている。
特に、TextVQAでは+7.6%、ST-VQAでは+10.8%、OCR-VQAでは+4.0%である。
関連論文リスト
- Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Separate and Locate: Rethink the Text in Text-based Visual Question
Answering [15.84929733099542]
テキストの文脈的手がかりを探索し,OCRテキスト間の空間的関係を構築するための空間的位置埋め込みを設計するための分離・ロケート(SaL)を提案する。
我々のSaLモデルは、TextVQAとST-VQAデータセットでベースラインモデルを4.44%、精度3.96%で上回る。
論文 参考訳(メタデータ) (2023-08-31T01:00:59Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Towards Escaping from Language Bias and OCR Error: Semantics-Centered
Text Visual Question Answering [14.010472385359163]
シーンイメージのテキストは、シーン理解と推論のための重要な情報を伝える。
現在のTextVQAモデルはテキスト中心ではなく、いくつかの制限に悩まされている。
本稿では,インスタンスレベルのコントラスト型セマンティックな予測モジュールとセマンティックス中心のトランスフォーマーモジュールからなるセマンティックス中心ネットワーク(SC-Net)を提案する。
論文 参考訳(メタデータ) (2022-03-24T08:21:41Z) - Graph Relation Transformer: Incorporating pairwise object features into
the Transformer architecture [0.0]
TextVQAは、画像内のビジュアルオブジェクトとテキストオブジェクトに関する質問に答えるためのデータセットである。
TextVQAにおける重要な課題の1つは、視覚的オブジェクトとテキストオブジェクトを個別にだけでなく、これらのオブジェクト間の空間的関係についても効果的に推論するシステムの設計である。
本稿では,グラフアテンション計算のためのノード情報に加えてエッジ情報を利用するグラフ関係変換器(GRT)を提案する。
論文 参考訳(メタデータ) (2021-11-11T06:55:28Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。