論文の概要: Look, Read and Ask: Learning to Ask Questions by Reading Text in Images
- arxiv url: http://arxiv.org/abs/2211.12950v1
- Date: Wed, 23 Nov 2022 13:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:34:11.094539
- Title: Look, Read and Ask: Learning to Ask Questions by Reading Text in Images
- Title(参考訳): Look, Read and Ask: 画像中のテキストを読んで質問する学習
- Authors: Soumya Jahagirdar, Shankar Gangisetty, Anand Mishra
- Abstract要約: テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
- 参考スコア(独自算出の注目度): 3.3972119795940525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel problem of text-based visual question generation or
TextVQG in short. Given the recent growing interest of the document image
analysis community in combining text understanding with conversational
artificial intelligence, e.g., text-based visual question answering, TextVQG
becomes an important task. TextVQG aims to generate a natural language question
for a given input image and an automatically extracted text also known as OCR
token from it such that the OCR token is an answer to the generated question.
TextVQG is an essential ability for a conversational agent. However, it is
challenging as it requires an in-depth understanding of the scene and the
ability to semantically bridge the visual content with the text present in the
image. To address TextVQG, we present an OCR consistent visual question
generation model that Looks into the visual content, Reads the scene text, and
Asks a relevant and meaningful natural language question. We refer to our
proposed model as OLRA. We perform an extensive evaluation of OLRA on two
public benchmarks and compare them against baselines. Our model OLRA
automatically generates questions similar to the public text-based visual
question answering datasets that were curated manually. Moreover, we
significantly outperform baseline approaches on the performance measures
popularly used in text generation literature.
- Abstract(参考訳): テキストベースの視覚的質問生成(TextVQG)という新しい問題を提案する。
テキスト理解と会話型人工知能(例えばテキストベースの視覚的質問応答)を組み合わせることに対する文書画像分析コミュニティの関心が最近高まり、TextVQGは重要なタスクとなっている。
TextVQGは、与えられた入力画像とOCRトークンとして知られる自動抽出されたテキストに対して、OCRトークンが生成された質問に対する回答であるように自然言語質問を生成することを目的としている。
TextVQGは会話エージェントにとって不可欠な機能である。
しかし、シーンの深い理解と、画像に存在するテキストで視覚的コンテンツを意味的にブリッジする能力が必要であるため、これは難しい。
テキストVQGに対処するために,OCRの一貫性のある視覚的質問生成モデルを提案する。
提案したモデルをOLRAと呼ぶ。
2つの公開ベンチマークでOLRAを広範囲に評価し、ベースラインと比較する。
我々のモデルOLRAは、手動で編集した公開テキストベースの視覚的質問応答データセットに似た質問を自動的に生成する。
また,テキスト生成文学で広く用いられている性能尺度において,ベースラインアプローチを有意に上回っている。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Evaluating Text-to-Visual Generation with Image-to-Text Generation [113.07368313330994]
VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。
これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。
我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
論文 参考訳(メタデータ) (2024-04-01T17:58:06Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - Text-Aware Dual Routing Network for Visual Question Answering [11.015339851906287]
既存のアプローチはしばしば、疑問に答えるために画像中のテキストを読み、理解する必要がある場合に失敗する。
本稿では,入力画像中のテキスト情報を理解しないVQA事例を同時に処理するテキスト認識デュアルルーティングネットワーク(TDR)を提案する。
テキスト理解を伴うブランチでは,画像中のテキストの理解を支援するために,OCR(Optical Character Recognition)機能をモデルに組み込む。
論文 参考訳(メタデータ) (2022-11-17T02:02:11Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - RUArt: A Novel Text-Centered Solution for Text-Based Visual Question
Answering [14.498144268367541]
テキストベースのVQAのためのRUArt (Reading, Understanding and Answering the Related Text) と呼ばれる新しいテキスト中心方式を提案する。
RUArtを2つのテキストベースVQAベンチマーク(ST-VQAとTextVQA)で評価し、RUArtの有効性の理由を探るため広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2020-10-24T15:37:09Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。