論文の概要: RUArt: A Novel Text-Centered Solution for Text-Based Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2010.12917v1
- Date: Sat, 24 Oct 2020 15:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:08:33.970677
- Title: RUArt: A Novel Text-Centered Solution for Text-Based Visual Question
Answering
- Title(参考訳): RUArt: テキストベースのビジュアル質問回答の新しいテキスト中心ソリューション
- Authors: Zan-Xia Jin, Heran Wu, Chun Yang, Fang Zhou, Jingyan Qin, Lei Xiao and
Xu-Cheng Yin
- Abstract要約: テキストベースのVQAのためのRUArt (Reading, Understanding and Answering the Related Text) と呼ばれる新しいテキスト中心方式を提案する。
RUArtを2つのテキストベースVQAベンチマーク(ST-VQAとTextVQA)で評価し、RUArtの有効性の理由を探るため広範囲にわたるアブレーション研究を行った。
- 参考スコア(独自算出の注目度): 14.498144268367541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based visual question answering (VQA) requires to read and understand
text in an image to correctly answer a given question. However, most current
methods simply add optical character recognition (OCR) tokens extracted from
the image into the VQA model without considering contextual information of OCR
tokens and mining the relationships between OCR tokens and scene objects. In
this paper, we propose a novel text-centered method called RUArt (Reading,
Understanding and Answering the Related Text) for text-based VQA. Taking an
image and a question as input, RUArt first reads the image and obtains text and
scene objects. Then, it understands the question, OCRed text and objects in the
context of the scene, and further mines the relationships among them. Finally,
it answers the related text for the given question through text semantic
matching and reasoning. We evaluate our RUArt on two text-based VQA benchmarks
(ST-VQA and TextVQA) and conduct extensive ablation studies for exploring the
reasons behind RUArt's effectiveness. Experimental results demonstrate that our
method can effectively explore the contextual information of the text and mine
the stable relationships between the text and objects.
- Abstract(参考訳): テキストベースの視覚的質問応答(VQA)は、与えられた質問に正しく答えるために、画像中のテキストを読み、理解する必要がある。
しかし、現在のほとんどの手法では、OCRトークンのコンテキスト情報を考慮せずに画像から抽出した光学式文字認識(OCR)トークンをVQAモデルに追加し、OCRトークンとシーンオブジェクトの関係をマイニングする。
本稿では,テキストベースのVQAのためのRUArt (Reading, Understanding and Answering the Related Text) という新しいテキスト中心方式を提案する。
画像と質問を入力として、ruart氏はまず画像を読み込み、テキストとシーンオブジェクトを取得する。
そして、シーンのコンテキストにおける質問やOCRテキスト、オブジェクトを理解し、それらの関係をさらに掘り下げる。
最後に、テキストセマンティクスマッチングと推論を通じて、与えられた質問の関連テキストに答える。
RUArtを2つのテキストベースVQAベンチマーク(ST-VQAとTextVQA)で評価し、RUArtの有効性の理由を探るため広範囲にわたるアブレーション研究を行った。
実験の結果,本手法はテキストの文脈情報を効果的に探索し,テキストとオブジェクト間の安定な関係を抽出できることがわかった。
関連論文リスト
- Scene-Text Grounding for Text-Based Video Question Answering [97.1112579979614]
テキストベースのビデオ質問応答(TextVideoQA)の既存の取り組みは、不透明な意思決定とシーンテキスト認識への依存で批判されている。
我々は,モデルに質問への回答を強制し,関連するシーンテキスト領域を解釈させることにより,グラウンドドテキストビデオQAを研究する。
論文 参考訳(メタデータ) (2024-09-22T05:13:11Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - Text-Aware Dual Routing Network for Visual Question Answering [11.015339851906287]
既存のアプローチはしばしば、疑問に答えるために画像中のテキストを読み、理解する必要がある場合に失敗する。
本稿では,入力画像中のテキスト情報を理解しないVQA事例を同時に処理するテキスト認識デュアルルーティングネットワーク(TDR)を提案する。
テキスト理解を伴うブランチでは,画像中のテキストの理解を支援するために,OCR(Optical Character Recognition)機能をモデルに組み込む。
論文 参考訳(メタデータ) (2022-11-17T02:02:11Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - Finding the Evidence: Localization-aware Answer Prediction for Text
Visual Question Answering [8.81824569181583]
本稿では,この課題に対処するローカライズ対応回答予測ネットワーク(LaAP-Net)を提案する。
我々のLaAP-Netは、質問に対する回答を生成するだけでなく、生成された回答の証拠としてバウンディングボックスを予測する。
提案するLaAP-Netは、テキストVQAタスクの3つのベンチマークデータセットに対する既存のアプローチよりも顕著なマージンで優れている。
論文 参考訳(メタデータ) (2020-10-06T09:46:20Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。