論文の概要: Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language
Representation Learning with Pre-trained Sequence-to-Sequence Model
- arxiv url: http://arxiv.org/abs/2106.15332v1
- Date: Thu, 24 Jun 2021 06:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-04 20:10:16.519358
- Title: Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language
Representation Learning with Pre-trained Sequence-to-Sequence Model
- Title(参考訳): TextVQA Challenge 2021: 事前学習されたシーケンス・ツー・シーケンスモデルによる視覚・言語表現学習
- Authors: Yixuan Qiao, Hao Chen, Jun Wang, Yihao Chen, Xianbin Ye, Ziliang Li,
Xianbiao Qi, Peng Gao, Guotong Xie
- Abstract要約: TextVQAは、画像中のテキストを読み、推論して、それらに関する質問に答えるモデルを必要とする。
この課題では、TextVQAタスクに生成モデルT5を使用します。
- 参考スコア(独自算出の注目度): 18.848107244522666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TextVQA requires models to read and reason about text in images to answer
questions about them. Specifically, models need to incorporate a new modality
of text present in the images and reason over it to answer TextVQA questions.
In this challenge, we use generative model T5 for TextVQA task. Based on
pre-trained checkpoint T5-3B from HuggingFace repository, two other
pre-training tasks including masked language modeling(MLM) and relative
position prediction(RPP) are designed to better align object feature and scene
text. In the stage of pre-training, encoder is dedicate to handle the fusion
among multiple modalities: question text, object text labels, scene text
labels, object visual features, scene visual features. After that decoder
generates the text sequence step-by-step, cross entropy loss is required by
default. We use a large-scale scene text dataset in pre-training and then
fine-tune the T5-3B with the TextVQA dataset only.
- Abstract(参考訳): TextVQAは、画像中のテキストを読み、推論して、それらに関する質問に答えるモデルを必要とする。
具体的には、モデルが画像に存在するテキストの新しいモダリティを取り入れて、テキストvqaの質問に答える必要がある。
この課題では、TextVQAタスクに生成モデルT5を使用します。
huggingfaceリポジトリから事前訓練されたチェックポイントt5-3bに基づき、マスク言語モデリング(mlm)と相対位置予測(rpp)を含む他の2つの事前学習タスクにより、オブジェクトの特徴とシーンテキストの調整がより容易になる。
事前トレーニングの段階では、エンコーダは質問テキスト、オブジェクトテキストラベル、シーンテキストラベル、オブジェクトの視覚的特徴、シーンの視覚的特徴など、複数のモダリティ間の融合を処理するために使用される。
そのデコーダがステップバイステップのテキストシーケンスを生成すると、デフォルトでクロスエントロピー損失が要求される。
大規模なシーンテキストデータセットを事前トレーニングに使用し、T5-3BをTextVQAデータセットのみで微調整する。
関連論文リスト
- Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - Question-controlled Text-aware Image Captioning [41.53906032024941]
質問制御テキスト対応画像キャプチャ(Qc-TextCap)は、新しい課題である。
質問を制御信号として扱うことで、我々のモデルは、最先端のテキスト認識キャプションモデルよりも、より情報的で多様なキャプションを生成する。
GQAMは、マルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。
論文 参考訳(メタデータ) (2021-08-04T13:34:54Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。