論文の概要: Text-Aware Dual Routing Network for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2211.14450v1
- Date: Thu, 17 Nov 2022 02:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:25:58.488109
- Title: Text-Aware Dual Routing Network for Visual Question Answering
- Title(参考訳): 視覚質問応答のためのテキスト対応デュアルルーティングネットワーク
- Authors: Luoqian Jiang, Yifan He, Jian Chen
- Abstract要約: 既存のアプローチはしばしば、疑問に答えるために画像中のテキストを読み、理解する必要がある場合に失敗する。
本稿では,入力画像中のテキスト情報を理解しないVQA事例を同時に処理するテキスト認識デュアルルーティングネットワーク(TDR)を提案する。
テキスト理解を伴うブランチでは,画像中のテキストの理解を支援するために,OCR(Optical Character Recognition)機能をモデルに組み込む。
- 参考スコア(独自算出の注目度): 11.015339851906287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) is a challenging task to provide an accurate
natural language answer given an image and a natural language question about
the image. It involves multi-modal learning, i.e., computer vision (CV) and
natural language processing (NLP), as well as flexible answer prediction for
free-form and open-ended answers. Existing approaches often fail in cases that
require reading and understanding text in images to answer questions. In
practice, they cannot effectively handle the answer sequence derived from text
tokens because the visual features are not text-oriented. To address the above
issues, we propose a Text-Aware Dual Routing Network (TDR) which simultaneously
handles the VQA cases with and without understanding text information in the
input images. Specifically, we build a two-branch answer prediction network
that contains a specific branch for each case and further develop a dual
routing scheme to dynamically determine which branch should be chosen. In the
branch that involves text understanding, we incorporate the Optical Character
Recognition (OCR) features into the model to help understand the text in the
images. Extensive experiments on the VQA v2.0 dataset demonstrate that our
proposed TDR outperforms existing methods, especially on the ''number'' related
VQA questions.
- Abstract(参考訳): 視覚質問応答(vqa)は、画像と画像に関する自然言語質問が与えられた場合に、正確な自然言語応答を提供することが難しい課題である。
マルチモーダル学習、すなわちコンピュータビジョン(cv)と自然言語処理(nlp)、そして自由形式と開放された回答に対する柔軟な回答予測を含む。
既存のアプローチはしばしば、疑問に答えるために画像中のテキストを読み、理解する必要がある場合に失敗する。
実際、視覚機能はテキスト指向ではないため、テキストトークンから派生した応答シーケンスを効果的に処理することはできない。
上記の問題に対処するために,入力画像中のテキスト情報を理解しないVQA事例を同時に処理するテキスト認識デュアルルーティングネットワーク(TDR)を提案する。
具体的には、各ケースに特定の分岐を含む2分岐応答予測ネットワークを構築し、どの分岐を選択するべきかを動的に決定する2分岐ルーティングスキームをさらに発展させる。
テキスト理解を伴うブランチでは,画像中のテキストの理解を支援するために,OCR(Optical Character Recognition)機能をモデルに組み込む。
VQA v2.0データセットに関する大規模な実験により、提案したTDRが既存の手法、特に'数値'に関連するVQA質問よりも優れていることが示された。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - A Picture May Be Worth a Hundred Words for Visual Question Answering [26.83504716672634]
画像理解においては、簡潔だが詳細な画像表現を用いることが不可欠である。
より高速なR-CNNのような視覚モデルによって抽出された深い視覚的特徴は、複数のタスクで広く使われている。
本稿では、深い視覚的特徴の代わりに記述-探索ペアを入力とし、言語のみのトランスフォーマーモデルに入力する。
論文 参考訳(メタデータ) (2021-06-25T06:13:14Z) - RUArt: A Novel Text-Centered Solution for Text-Based Visual Question
Answering [14.498144268367541]
テキストベースのVQAのためのRUArt (Reading, Understanding and Answering the Related Text) と呼ばれる新しいテキスト中心方式を提案する。
RUArtを2つのテキストベースVQAベンチマーク(ST-VQAとTextVQA)で評価し、RUArtの有効性の理由を探るため広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2020-10-24T15:37:09Z) - Finding the Evidence: Localization-aware Answer Prediction for Text
Visual Question Answering [8.81824569181583]
本稿では,この課題に対処するローカライズ対応回答予測ネットワーク(LaAP-Net)を提案する。
我々のLaAP-Netは、質問に対する回答を生成するだけでなく、生成された回答の証拠としてバウンディングボックスを予測する。
提案するLaAP-Netは、テキストVQAタスクの3つのベンチマークデータセットに対する既存のアプローチよりも顕著なマージンで優れている。
論文 参考訳(メタデータ) (2020-10-06T09:46:20Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。