論文の概要: TAP: Text-Aware Pre-training for Text-VQA and Text-Caption
- arxiv url: http://arxiv.org/abs/2012.04638v1
- Date: Tue, 8 Dec 2020 18:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:13:42.219130
- Title: TAP: Text-Aware Pre-training for Text-VQA and Text-Caption
- Title(参考訳): TAP:テキストVQAとテキストキャプションのためのテキスト認識事前学習
- Authors: Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio,
Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo
- Abstract要約: テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
- 参考スコア(独自算出の注目度): 75.44716665758415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose Text-Aware Pre-training (TAP) for Text-VQA and
Text-Caption tasks. These two tasks aim at reading and understanding scene text
in images for question answering and image caption generation, respectively. In
contrast to the conventional vision-language pre-training that fails to capture
scene text and its relationship with the visual and text modalities, TAP
explicitly incorporates scene text (generated from OCR engines) in
pre-training. With three pre-training tasks, including masked language modeling
(MLM), image-text (contrastive) matching (ITM), and relative (spatial) position
prediction (RPP), TAP effectively helps the model learn a better aligned
representation among the three modalities: text word, visual object, and scene
text. Due to this aligned representation learning, even pre-trained on the same
downstream task dataset, TAP already boosts the absolute accuracy on the
TextVQA dataset by +5.4%, compared with a non-TAP baseline. To further improve
the performance, we build a large-scale dataset based on the Conceptual Caption
dataset, named OCR-CC, which contains 1.4 million scene text-related image-text
pairs. Pre-trained on this OCR-CC dataset, our approach outperforms the state
of the art by large margins on multiple tasks, i.e., +8.3% accuracy on TextVQA,
+8.6% accuracy on ST-VQA, and +10.2 CIDEr score on TextCaps.
- Abstract(参考訳): 本稿では,テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
これら2つの課題は,質問応答とキャプション生成のための画像中のシーンテキストの読解と理解をそれぞれ目的とする。
シーンテキストのキャプチャに失敗する従来の視覚言語による事前学習とは対照的に、TAPはシーンテキスト(OCRエンジンから生成される)を事前学習に用いている。
マスク付き言語モデリング(MLM)、画像テキスト(コントラスト)マッチング(ITM)、相対(空間)位置予測(RPP)を含む3つの事前訓練タスクにより、TAPは、テキストワード、ビジュアルオブジェクト、シーンテキストの3つのモード間のより整合した表現を効果的に学習するのに役立つ。
同じダウンストリームタスクデータセットで事前トレーニングされたこのアライメント表現学習のおかげで、tapはすでにtextvqaデータセットの絶対精度を5.4%向上させ、非タップベースラインと比較している。
パフォーマンスをさらに向上するため、140万のシーンテキスト関連画像テキストペアを含むコンセプトキャプションデータセットであるOCR-CCをベースとした大規模データセットを構築した。
このOCR-CCデータセットで事前トレーニングした手法では,TextVQAでは+8.3%,ST-VQAでは+8.6%,TextCapsでは+10.2 CIDErのスコアが得られた。
関連論文リスト
- ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文 参考訳(メタデータ) (2024-03-01T06:13:53Z) - Separate and Locate: Rethink the Text in Text-based Visual Question
Answering [15.84929733099542]
テキストの文脈的手がかりを探索し,OCRテキスト間の空間的関係を構築するための空間的位置埋め込みを設計するための分離・ロケート(SaL)を提案する。
我々のSaLモデルは、TextVQAとST-VQAデータセットでベースラインモデルを4.44%、精度3.96%で上回る。
論文 参考訳(メタデータ) (2023-08-31T01:00:59Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language
Representation Learning with Pre-trained Sequence-to-Sequence Model [18.848107244522666]
TextVQAは、画像中のテキストを読み、推論して、それらに関する質問に答えるモデルを必要とする。
この課題では、TextVQAタスクに生成モデルT5を使用します。
論文 参考訳(メタデータ) (2021-06-24T06:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。