論文の概要: Separate and Locate: Rethink the Text in Text-based Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2308.16383v1
- Date: Thu, 31 Aug 2023 01:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 18:12:53.634423
- Title: Separate and Locate: Rethink the Text in Text-based Visual Question
Answering
- Title(参考訳): 分離と位置付け:テキストベースのビジュアル質問応答におけるテキストの再検討
- Authors: Chengyang Fang, Jiangnan Li, Liang Li, Can Ma, Dayong Hu
- Abstract要約: テキストの文脈的手がかりを探索し,OCRテキスト間の空間的関係を構築するための空間的位置埋め込みを設計するための分離・ロケート(SaL)を提案する。
我々のSaLモデルは、TextVQAとST-VQAデータセットでベースラインモデルを4.44%、精度3.96%で上回る。
- 参考スコア(独自算出の注目度): 15.84929733099542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based Visual Question Answering (TextVQA) aims at answering questions
about the text in images. Most works in this field focus on designing network
structures or pre-training tasks. All these methods list the OCR texts in
reading order (from left to right and top to bottom) to form a sequence, which
is treated as a natural language ``sentence''. However, they ignore the fact
that most OCR words in the TextVQA task do not have a semantical contextual
relationship. In addition, these approaches use 1-D position embedding to
construct the spatial relation between OCR tokens sequentially, which is not
reasonable. The 1-D position embedding can only represent the left-right
sequence relationship between words in a sentence, but not the complex spatial
position relationship. To tackle these problems, we propose a novel method
named Separate and Locate (SaL) that explores text contextual cues and designs
spatial position embedding to construct spatial relations between OCR texts.
Specifically, we propose a Text Semantic Separate (TSS) module that helps the
model recognize whether words have semantic contextual relations. Then, we
introduce a Spatial Circle Position (SCP) module that helps the model better
construct and reason the spatial position relationships between OCR texts. Our
SaL model outperforms the baseline model by 4.44% and 3.96% accuracy on TextVQA
and ST-VQA datasets. Compared with the pre-training state-of-the-art method
pre-trained on 64 million pre-training samples, our method, without any
pre-training tasks, still achieves 2.68% and 2.52% accuracy improvement on
TextVQA and ST-VQA. Our code and models will be released at
https://github.com/fangbufang/SaL.
- Abstract(参考訳): テキストベースのVisual Question Answering (TextVQA)は、画像中のテキストに関する質問に答えることを目的としている。
この分野での作業の多くは、ネットワーク構造や事前トレーニングタスクの設計に重点を置いている。
これらのメソッドはすべてocrテキストを(左から右へ、上から下へ)読み出し順にリストし、シーケンスを形成し、これは自然言語 `sentence'' として扱われる。
しかし、TextVQAタスクのほとんどのOCRワードが意味的文脈関係を持たないという事実を無視している。
さらに,OCRトークン間の空間的関係を連続的に構築するために1次元位置埋め込みを用いるが,これは妥当ではない。
1次元位置埋め込みは文中の単語間の左右のシーケンス関係を表現できるが、複雑な空間的位置関係は表現できない。
そこで本研究では,ocrテキスト間の空間的関係を構築するために,テキストの文脈的手がかりを探索し,空間的位置埋め込みをデザインするsal(dispartment and location)という新しい手法を提案する。
具体的には、単語が意味的文脈関係を持つかどうかをモデルが認識するのに役立つテキスト意味分離(TSS)モジュールを提案する。
次に、OCRテキスト間の空間的位置関係をよりよく構築し、推論するのに役立つ空間円位置(SCP)モジュールを提案する。
我々のSaLモデルは、TextVQAとST-VQAデータセットでベースラインモデルを4.44%、精度3.96%で上回る。
6600万の事前学習サンプルで事前学習した最先端の手法と比較して,本手法は未訓練作業なしで,TextVQAとST-VQAで2.68%,2.52%の精度向上を実現している。
私たちのコードとモデルはhttps://github.com/fangbufang/salでリリースされる予定です。
関連論文リスト
- Locate Then Generate: Bridging Vision and Language with Bounding Box for
Scene-Text VQA [15.74007067413724]
STVQA(Scene Text Visual Question Answering)のための新しいフレームワークを提案する。
質問応答には画像中のシーンテキストを読む必要がある。
論文 参考訳(メタデータ) (2023-04-04T07:46:40Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - LaTr: Layout-Aware Transformer for Scene-Text VQA [8.390314291424263]
STVQA(Scene Text Visual Question Answering)のための新しいアーキテクチャを提案する。
スキャンした文書にこの事前学習方式を適用することは、自然画像を使用するよりも、ある程度の利点があることを示す。
既存の手法と比較して,本手法は語彙なし復号化を行い,トレーニング語彙をはるかに超越した一般化を行う。
論文 参考訳(メタデータ) (2021-12-23T12:41:26Z) - Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language
Representation Learning with Pre-trained Sequence-to-Sequence Model [18.848107244522666]
TextVQAは、画像中のテキストを読み、推論して、それらに関する質問に答えるモデルを必要とする。
この課題では、TextVQAタスクに生成モデルT5を使用します。
論文 参考訳(メタデータ) (2021-06-24T06:39:37Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。