論文の概要: Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling
- arxiv url: http://arxiv.org/abs/2108.08965v1
- Date: Fri, 20 Aug 2021 01:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:38:52.308720
- Title: Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling
- Title(参考訳): ローカライズ、グループ、選択:シーンテキストモデリングによるテキストVQAの強化
- Authors: Xiaopeng Lu, Zhen Fan, Yansen Wang, Jean Oh, Carolyn P. Rose
- Abstract要約: Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
- 参考スコア(独自算出の注目度): 12.233796960280944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As an important task in multimodal context understanding, Text-VQA (Visual
Question Answering) aims at question answering through reading text information
in images. It differentiates from the original VQA task as Text-VQA requires
large amounts of scene-text relationship understanding, in addition to the
cross-modal grounding capability. In this paper, we propose Localize, Group,
and Select (LOGOS), a novel model which attempts to tackle this problem from
multiple aspects. LOGOS leverages two grounding tasks to better localize the
key information of the image, utilizes scene text clustering to group
individual OCR tokens, and learns to select the best answer from different
sources of OCR (Optical Character Recognition) texts. Experiments show that
LOGOS outperforms previous state-of-the-art methods on two Text-VQA benchmarks
without using additional OCR annotation data. Ablation studies and analysis
demonstrate the capability of LOGOS to bridge different modalities and better
understand scene text.
- Abstract(参考訳): マルチモーダルな文脈理解における重要な課題として,テキストVQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的とする。
Text-VQAは、クロスモーダルグラウンド機能に加えて、大量のシーン・テキスト関係の理解を必要とするため、オリジナルのVQAタスクと差別化されている。
本稿では,複数の側面からこの問題に対処する新しいモデルであるLocalize, Group, and Select(LOGOS)を提案する。
LOGOSは2つのグラウンディングタスクを活用して、画像のキー情報をよりよくローカライズし、シーンテキストクラスタリングを使用して個々のOCRトークンをグループ化し、OCRテキストの異なるソースから最適な回答を選択することを学ぶ。
実験により、LOGOSは2つのText-VQAベンチマークにおいて、追加のOCRアノテーションデータを用いることなく、従来の最先端メソッドよりも優れていることが示された。
アブレーション研究と分析は、異なるモダリティをブリッジし、シーンテキストをよりよく理解するLOGOSの能力を示している。
関連論文リスト
- Scene-Text Grounding for Text-Based Video Question Answering [97.1112579979614]
テキストベースのビデオ質問応答(TextVideoQA)の既存の取り組みは、不透明な意思決定とシーンテキスト認識への依存で批判されている。
我々は,モデルに質問への回答を強制し,関連するシーンテキスト領域を解釈させることにより,グラウンドドテキストビデオQAを研究する。
論文 参考訳(メタデータ) (2024-09-22T05:13:11Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Question-controlled Text-aware Image Captioning [41.53906032024941]
質問制御テキスト対応画像キャプチャ(Qc-TextCap)は、新しい課題である。
質問を制御信号として扱うことで、我々のモデルは、最先端のテキスト認識キャプションモデルよりも、より情報的で多様なキャプションを生成する。
GQAMは、マルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。
論文 参考訳(メタデータ) (2021-08-04T13:34:54Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - Finding the Evidence: Localization-aware Answer Prediction for Text
Visual Question Answering [8.81824569181583]
本稿では,この課題に対処するローカライズ対応回答予測ネットワーク(LaAP-Net)を提案する。
我々のLaAP-Netは、質問に対する回答を生成するだけでなく、生成された回答の証拠としてバウンディングボックスを予測する。
提案するLaAP-Netは、テキストVQAタスクの3つのベンチマークデータセットに対する既存のアプローチよりも顕著なマージンで優れている。
論文 参考訳(メタデータ) (2020-10-06T09:46:20Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。