論文の概要: Making the V in Text-VQA Matter
- arxiv url: http://arxiv.org/abs/2308.00295v1
- Date: Tue, 1 Aug 2023 05:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:21:03.661098
- Title: Making the V in Text-VQA Matter
- Title(参考訳): テキストVQAにおけるVの作成
- Authors: Shamanthak Hegde, Soumya Jahagirdar and Shankar Gangisetty
- Abstract要約: テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
- 参考スコア(独自算出の注目度): 1.2962828085662563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based VQA aims at answering questions by reading the text present in the
images. It requires a large amount of scene-text relationship understanding
compared to the VQA task. Recent studies have shown that the question-answer
pairs in the dataset are more focused on the text present in the image but less
importance is given to visual features and some questions do not require
understanding the image. The models trained on this dataset predict biased
answers due to the lack of understanding of visual context. For example, in
questions like "What is written on the signboard?", the answer predicted by the
model is always "STOP" which makes the model to ignore the image. To address
these issues, we propose a method to learn visual features (making V matter in
TextVQA) along with the OCR features and question features using VQA dataset as
external knowledge for Text-based VQA. Specifically, we combine the TextVQA
dataset and VQA dataset and train the model on this combined dataset. Such a
simple, yet effective approach increases the understanding and correlation
between the image features and text present in the image, which helps in the
better answering of questions. We further test the model on different datasets
and compare their qualitative and quantitative results.
- Abstract(参考訳): テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
VQAタスクと比較して、シーン・テキスト間の関係の理解がかなり必要になります。
近年の研究では、データセット内の質問と回答のペアは画像中のテキストに重点を置いているが、視覚的特徴にはあまり重要ではないことが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如によりバイアスのある回答を予測する。
例えば、"what is written on the signboard?"のような質問では、モデルによって予測される答えは常に"stop"であり、モデルが画像を無視するようにします。
これらの課題に対処するため、テキストベースのVQAの外部知識としてVQAデータセットを用いて、OCR機能や質問機能とともに視覚的特徴(TextVQAでVを重要視する)を学習する方法を提案する。
具体的には、TextVQAデータセットとVQAデータセットを組み合わせて、この組み合わせデータセット上でモデルをトレーニングします。
このような単純かつ効果的なアプローチは、画像に含まれる画像特徴とテキストの理解と相関性を高め、質問への回答を改善するのに役立つ。
さらに、異なるデータセット上でモデルをテストし、質的および定量的な結果を比較する。
関連論文リスト
- A Comprehensive Survey on Visual Question Answering Datasets and Algorithms [1.941892373913038]
我々は、VQAデータセットとモデルの現状を慎重に分析し、それらを異なるカテゴリにきれいに分割し、各カテゴリの方法論と特徴を要約する。
VQAモデルの6つの主要なパラダイムを探求する。融合、注意、あるモードからの情報を用いて、別のモードからの情報をフィルタリングする技法、外部知識ベース、構成または推論、グラフモデルである。
論文 参考訳(メタデータ) (2024-11-17T18:52:06Z) - ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images [1.2529442734851663]
ベトナムでは,画像に現れるテキストを理解する能力に特化して,最初の大規模データセットを導入する。
我々は、OCRテキスト中のトークンを処理し、回答を定式化するために選択する順序の重要性を明らかにする。
論文 参考訳(メタデータ) (2024-04-16T15:28:30Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。