論文の概要: Spatially Aware Multimodal Transformers for TextVQA
- arxiv url: http://arxiv.org/abs/2007.12146v2
- Date: Wed, 23 Dec 2020 03:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:47:39.357721
- Title: Spatially Aware Multimodal Transformers for TextVQA
- Title(参考訳): TextVQAのための空間的マルチモーダル変換器
- Authors: Yash Kant, Dhruv Batra, Peter Anderson, Alex Schwing, Devi Parikh,
Jiasen Lu, Harsh Agrawal
- Abstract要約: 我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
- 参考スコア(独自算出の注目度): 61.01618988620582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual cues are essential for everyday tasks like buying groceries and using
public transport. To develop this assistive technology, we study the TextVQA
task, i.e., reasoning about text in images to answer a question. Existing
approaches are limited in their use of spatial relations and rely on
fully-connected transformer-like architectures to implicitly learn the spatial
structure of a scene. In contrast, we propose a novel spatially aware
self-attention layer such that each visual entity only looks at neighboring
entities defined by a spatial graph. Further, each head in our multi-head
self-attention layer focuses on a different subset of relations. Our approach
has two advantages: (1) each head considers local context instead of dispersing
the attention amongst all visual entities; (2) we avoid learning redundant
features. We show that our model improves the absolute accuracy of current
state-of-the-art methods on TextVQA by 2.2% overall over an improved baseline,
and 4.62% on questions that involve spatial reasoning and can be answered
correctly using OCR tokens. Similarly on ST-VQA, we improve the absolute
accuracy by 4.2%. We further show that spatially aware self-attention improves
visual grounding.
- Abstract(参考訳): テキスト・キューは食料品の購入や公共交通機関の利用といった日常的な作業に不可欠である。
この支援技術を開発するために,textvqaタスク,すなわち,画像中のテキストを推論して質問に回答する。
既存のアプローチは空間関係の利用に限られており、シーンの空間構造を暗黙的に学習するために完全に接続されたトランスフォーマーのようなアーキテクチャに依存している。
対照的に,空間グラフで定義された隣接エンティティのみを視認する,空間的に認識可能な新しい自己照準層を提案する。
さらに、私たちのマルチヘッド自己注意層の各ヘッドは、関係の異なるサブセットに焦点を当てています。
提案手法の利点は,(1)視覚的特徴に注意を分散させるのではなく,各頭部が局所的な文脈を考慮し,(2)冗長な特徴の学習を避けることにある。
このモデルにより,textvqaにおける最先端手法の絶対精度が,ベースラインの改善よりも2.2%向上し,ocrトークンを用いて正解できる空間的推論を伴う4.62%向上した。
ST-VQAと同様、絶対精度は4.2%向上する。
さらに,空間的意識が視覚的接地を改善することを示す。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Toward 3D Spatial Reasoning for Human-like Text-based Visual Question
Answering [23.083935053799145]
テキストベースのビジュアル質問回答(TextVQA)は,複数のシーンテキストを用いた画像に関する質問に対して,適切な回答を生成することを目的としている。
我々は,キーオブジェクトの文脈的知識を捉えるために,人間のような空間的推論プロセスに3次元幾何学的情報を導入する。
本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-21T12:49:14Z) - Barlow constrained optimization for Visual Question Answering [105.3372546782068]
本稿では,バーロウ理論(COB)を用いたVQAモデルの新たな正規化,制約付き最適化を提案する。
我々のモデルは、解答と画像+クエストを、本質的に同じ意味情報である2つの異なる視点として考える、解答埋め込み空間と結合空間を整合させる。
最先端のGEモデルに基づく場合、VQAの精度はVQA-CP v2データセットとVQA v2データセットでそれぞれ1.4%向上する。
論文 参考訳(メタデータ) (2022-03-07T21:27:40Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - LaTr: Layout-Aware Transformer for Scene-Text VQA [8.390314291424263]
STVQA(Scene Text Visual Question Answering)のための新しいアーキテクチャを提案する。
スキャンした文書にこの事前学習方式を適用することは、自然画像を使用するよりも、ある程度の利点があることを示す。
既存の手法と比較して,本手法は語彙なし復号化を行い,トレーニング語彙をはるかに超越した一般化を行う。
論文 参考訳(メタデータ) (2021-12-23T12:41:26Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。