論文の概要: Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps
- arxiv url: http://arxiv.org/abs/2012.05153v1
- Date: Wed, 9 Dec 2020 16:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:00:59.442451
- Title: Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps
- Title(参考訳): simpleは簡単ではない:textvqaとtextcapsのシンプルな強固なベースライン
- Authors: Qi Zhu, Chenyu Gao, Peng Wang, Qi Wu
- Abstract要約: テキストベースのビジュアル質問応答とテキストベースの画像キャプションという2つのタスクが急速に進んでいる。
これらの問題を解決するために、多くの洗練されたマルチモダリティエンコーディングフレームワークが使用されている。
単純な注意機構は、鐘や笛を鳴らすことなく、同じあるいはそれ以上の仕事をすることができると我々は主張する。
- 参考スコア(独自算出の注目度): 19.33264134435471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Texts appearing in daily scenes that can be recognized by OCR (Optical
Character Recognition) tools contain significant information, such as street
name, product brand and prices. Two tasks -- text-based visual question
answering and text-based image captioning, with a text extension from existing
vision-language applications, are catching on rapidly. To address these
problems, many sophisticated multi-modality encoding frameworks (such as
heterogeneous graph structure) are being used. In this paper, we argue that a
simple attention mechanism can do the same or even better job without any bells
and whistles. Under this mechanism, we simply split OCR token features into
separate visual- and linguistic-attention branches, and send them to a popular
Transformer decoder to generate answers or captions. Surprisingly, we find this
simple baseline model is rather strong -- it consistently outperforms
state-of-the-art (SOTA) models on two popular benchmarks, TextVQA and all three
tasks of ST-VQA, although these SOTA models use far more complex encoding
mechanisms. Transferring it to text-based image captioning, we also surpass the
TextCaps Challenge 2020 winner. We wish this work to set the new baseline for
this two OCR text related applications and to inspire new thinking of
multi-modality encoder design. Code is available at
https://github.com/ZephyrZhuQi/ssbaseline
- Abstract(参考訳): OCR(Optical Character Recognition)ツールで認識できる日々のシーンに現れるテキストには、街路名、商品ブランド、価格などの重要な情報が含まれている。
テキストベースの視覚的質問応答と、既存の視覚言語アプリケーションからのテキスト拡張を含むテキストベースのイメージキャプションという2つのタスクが、急速に加速している。
これらの問題を解決するために、多くの洗練されたマルチモダリティエンコーディングフレームワーク(ヘテロジニアスグラフ構造など)が使用されている。
本稿では、単純な注意機構が、鐘や笛を使わずに、同じあるいはそれ以上の仕事をすることができると論じる。
このメカニズムでは、OCRトークンの特徴を視覚的および言語的意図の分岐に分割し、人気のあるTransformerデコーダに送信し、回答やキャプションを生成する。
驚くべきことに、この単純なベースラインモデルは、かなり強い -- 一般的なベンチマークであるTextVQAとST-VQAの3つのタスクにおいて、常に最先端(SOTA)モデルよりも優れていますが、これらのSOTAモデルははるかに複雑な符号化機構を使用します。
テキストベースの画像キャプションにそれを移すと、TextCaps Challenge 2020の勝者を超えます。
我々は、この2つのOCRテキスト関連アプリケーションの新しいベースラインを設定し、マルチモーダルエンコーダ設計の新しい考え方を刺激したいと考えている。
コードはhttps://github.com/ZephyrZhuQi/ssbaselineで入手できる。
関連論文リスト
- VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - Question-controlled Text-aware Image Captioning [41.53906032024941]
質問制御テキスト対応画像キャプチャ(Qc-TextCap)は、新しい課題である。
質問を制御信号として扱うことで、我々のモデルは、最先端のテキスト認識キャプションモデルよりも、より情報的で多様なキャプションを生成する。
GQAMは、マルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。
論文 参考訳(メタデータ) (2021-08-04T13:34:54Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Confidence-aware Non-repetitive Multimodal Transformers for TextCaps [22.49710277956828]
以上の課題に取り組むために、CNMT(Confidence-aware non-repetitive Multimodal Transformers)を提案します。
我々のCNMTは、読み出し、推論、生成モジュールで構成されており、読み出しモジュールはテキスト読み出し能力を向上させるためにより良いOCRシステムを採用している。
私たちのモデルはtextcapsデータセットで最先端のモデルを上回り、ciderでは81.0から93.0に改善しました。
論文 参考訳(メタデータ) (2020-12-07T13:20:12Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。