Fugu-MT 論文翻訳(概要): ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images

論文の概要: ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images

arxiv url: http://arxiv.org/abs/2404.18397v1
Date: Mon, 29 Apr 2024 03:17:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 14:56:28.757206
Title: ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images
Title（参考訳）: ViOCRVQA:ベトナム語テキストのイメージ理解による視覚質問応答のためのベンチマークデータセットと視覚リーダ
Authors: Huy Quang Pham, Thang Kien-Bao Nguyen, Quan Van Nguyen, Dan Quang Tran, Nghia Hieu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen,
Abstract要約: 28,000以上の画像と12000以上の質問応答対からなる新しいデータセットViOCRVQA(Vietnamese Optical Character Recognition - Visual Question Answering dataset)を導入する。このデータセットでは、すべての画像は、画像内のテキストに関連する情報に関するテキストと質問を含む。ベトナムのデータセットに固有の課題と難しさを明らかにするため、我々のデータセットで実験を行うために英語が提案した最先端の手法のアイデアをデプロイする。
参考スコア（独自算出の注目度）: 1.2529442734851663
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Optical Character Recognition - Visual Question Answering (OCR-VQA) is the task of answering text information contained in images that have just been significantly developed in the English language in recent years. However, there are limited studies of this task in low-resource languages such as Vietnamese. To this end, we introduce a novel dataset, ViOCRVQA (Vietnamese Optical Character Recognition - Visual Question Answering dataset), consisting of 28,000+ images and 120,000+ question-answer pairs. In this dataset, all the images contain text and questions about the information relevant to the text in the images. We deploy ideas from state-of-the-art methods proposed for English to conduct experiments on our dataset, revealing the challenges and difficulties inherent in a Vietnamese dataset. Furthermore, we introduce a novel approach, called VisionReader, which achieved 0.4116 in EM and 0.6990 in the F1-score on the test set. Through the results, we found that the OCR system plays a very important role in VQA models on the ViOCRVQA dataset. In addition, the objects in the image also play a role in improving model performance. We open access to our dataset at link (https://github.com/qhnhynmm/ViOCRVQA.git) for further research in OCR-VQA task in Vietnamese.
Abstract（参考訳）: 光文字認識 - 視覚質問応答(OCR-VQA)は、近年英語で顕著に発達した画像に含まれるテキスト情報に答えるタスクである。しかし、ベトナム語などの低資源言語では、この課題について限定的な研究がなされている。この目的のために,28,000以上の画像と12000以上の質問応答対からなる新しいデータセットViOCRVQA(Vietnamese Optical Character Recognition - Visual Question Answering dataset)を導入する。このデータセットでは、すべての画像は、画像内のテキストに関連する情報に関するテキストと質問を含む。ベトナムのデータセットに固有の課題と難しさを明らかにするため、我々のデータセット上で実験を行うために英語が提案した最先端の手法のアイデアをデプロイする。さらに、テストセットのF1スコアで0.4116、0.6990を達成したVisionReaderという新しいアプローチを導入する。その結果、OCRシステムはVOCRVQAデータセット上のVQAモデルにおいて非常に重要な役割を果たすことがわかった。さらに、画像内のオブジェクトはモデルの性能を向上させる役割も果たします。ベトナムのOCR-VQAタスクのさらなる研究のために、当社のデータセットへのリンク(https://github.com/qhnhynmm/ViOCRVQA.git)をオープンにしています。

関連論文リスト

Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文参考訳（メタデータ） (2024-05-21T06:48:26Z)
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images [1.2529442734851663]
ベトナムでは,画像に現れるテキストを理解する能力に特化して,最初の大規模データセットを導入する。我々は、OCRテキスト中のトークンを処理し、回答を定式化するために選択する順序の重要性を明らかにする。
論文参考訳（メタデータ） (2024-04-16T15:28:30Z)
Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文参考訳（メタデータ） (2023-08-01T05:28:13Z)
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-07-03T09:03:12Z)
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文参考訳（メタデータ） (2023-06-29T17:08:16Z)
OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese [2.7528170226206443]
ベトナム初の視覚的質問応答のための大規模データセットであるOpenViVQAデータセットを紹介する。データセットは37,000以上の質問応答ペア(QA)に関連付けられた11,000以上の画像で構成されている。提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。
論文参考訳（メタデータ） (2023-05-07T03:59:31Z)
TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文参考訳（メタデータ） (2023-03-21T14:41:02Z)
TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文参考訳（メタデータ） (2022-08-03T02:18:09Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。 UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文参考訳（メタデータ） (2020-09-30T15:06:56Z)
TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文参考訳（メタデータ） (2020-03-24T02:38:35Z)
UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning [2.7528170226206443]
本稿では,異なる言語 - ベトナム語 - へのデータセット拡張の観点から,イメージキャプションタスクの研究に貢献する。このスコープでは,ボールでプレーするスポーツに関連するMicrosoft COCOデータセットから,手書きのキャプションを含むデータセットを最初に構築する。その後、ディープニューラルネットワークモデルのデータセットを評価し、英語のデータセットとベトナムの2つのデータセットとの比較を行った。
論文参考訳（メタデータ） (2020-02-01T09:26:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。