論文の概要: Finding the Evidence: Localization-aware Answer Prediction for Text
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2010.02582v1
- Date: Tue, 6 Oct 2020 09:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:18:30.639638
- Title: Finding the Evidence: Localization-aware Answer Prediction for Text
Visual Question Answering
- Title(参考訳): エビデンスを見つける: テキスト視覚質問応答における位置認識型回答予測
- Authors: Wei Han and Hantao Huang and Tao Han
- Abstract要約: 本稿では,この課題に対処するローカライズ対応回答予測ネットワーク(LaAP-Net)を提案する。
我々のLaAP-Netは、質問に対する回答を生成するだけでなく、生成された回答の証拠としてバウンディングボックスを予測する。
提案するLaAP-Netは、テキストVQAタスクの3つのベンチマークデータセットに対する既存のアプローチよりも顕著なマージンで優れている。
- 参考スコア(独自算出の注目度): 8.81824569181583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image text carries essential information to understand the scene and perform
reasoning. Text-based visual question answering (text VQA) task focuses on
visual questions that require reading text in images. Existing text VQA systems
generate an answer by selecting from optical character recognition (OCR) texts
or a fixed vocabulary. Positional information of text is underused and there is
a lack of evidence for the generated answer. As such, this paper proposes a
localization-aware answer prediction network (LaAP-Net) to address this
challenge. Our LaAP-Net not only generates the answer to the question but also
predicts a bounding box as evidence of the generated answer. Moreover, a
context-enriched OCR representation (COR) for multimodal fusion is proposed to
facilitate the localization task. Our proposed LaAP-Net outperforms existing
approaches on three benchmark datasets for the text VQA task by a noticeable
margin.
- Abstract(参考訳): 画像テキストはシーンを理解し、推論を行うために必要な情報を持っている。
テキストベースの視覚的質問応答(text VQA)タスクは、画像中のテキストを読む必要がある視覚的質問に焦点を当てる。
既存のテキストVQAシステムは、光学文字認識(OCR)テキストまたは固定語彙から選択して回答を生成する。
テキストの位置情報は未使用であり、生成された回答の証拠が不足している。
そこで本稿では,この課題に対処するために,ローカライズ対応回答予測ネットワーク(LaAP-Net)を提案する。
我々のLaAP-Netは、質問に対する回答を生成するだけでなく、生成された回答の証拠としてバウンディングボックスを予測する。
さらに,マルチモーダル核融合のためのコンテキスト拡張型OCR表現(COR)を提案し,局所化作業を容易にする。
提案するLaAP-Netは、テキストVQAタスクの3つのベンチマークデータセットに対する既存のアプローチよりも顕著なマージンで優れている。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - Text-Aware Dual Routing Network for Visual Question Answering [11.015339851906287]
既存のアプローチはしばしば、疑問に答えるために画像中のテキストを読み、理解する必要がある場合に失敗する。
本稿では,入力画像中のテキスト情報を理解しないVQA事例を同時に処理するテキスト認識デュアルルーティングネットワーク(TDR)を提案する。
テキスト理解を伴うブランチでは,画像中のテキストの理解を支援するために,OCR(Optical Character Recognition)機能をモデルに組み込む。
論文 参考訳(メタデータ) (2022-11-17T02:02:11Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - RUArt: A Novel Text-Centered Solution for Text-Based Visual Question
Answering [14.498144268367541]
テキストベースのVQAのためのRUArt (Reading, Understanding and Answering the Related Text) と呼ばれる新しいテキスト中心方式を提案する。
RUArtを2つのテキストベースVQAベンチマーク(ST-VQAとTextVQA)で評価し、RUArtの有効性の理由を探るため広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2020-10-24T15:37:09Z) - Multimodal grid features and cell pointers for Scene Text Visual
Question Answering [7.834170106487722]
本稿では,シーンテキストによる視覚的質問応答のタスクのための新しいモデルを提案する。
問題に適応したマルチモーダルな特徴に対応するアテンションメカニズムに基づいている。
実験では、2つの標準データセットで競合性能を示す。
論文 参考訳(メタデータ) (2020-06-01T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。