論文の概要: Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering
- arxiv url: http://arxiv.org/abs/2405.12533v1
- Date: Tue, 21 May 2024 06:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 14:08:52.834400
- Title: Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering
- Title(参考訳): ウルドゥー自然シーンのテキスト検出・認識・視覚質問応答のためのデータセットとベンチマーク
- Authors: Hiba Maryam, Ling Fu, Jiajun Song, Tajrian ABM Shafayet, Qidi Luo, Xiang Bai, Yuliang Liu,
- Abstract要約: このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
- 参考スコア(独自算出の注目度): 50.52792174648067
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of Urdu scene text detection, recognition, and Visual Question Answering (VQA) technologies is crucial for advancing accessibility, information retrieval, and linguistic diversity in digital content, facilitating better understanding and interaction with Urdu-language visual data. This initiative seeks to bridge the gap between textual and visual comprehension. We propose a new multi-task Urdu scene text dataset comprising over 1000 natural scene images, which can be used for text detection, recognition, and VQA tasks. We provide fine-grained annotations for text instances, addressing the limitations of previous datasets for facing arbitrary-shaped texts. By incorporating additional annotation points, this dataset facilitates the development and assessment of methods that can handle diverse text layouts, intricate shapes, and non-standard orientations commonly encountered in real-world scenarios. Besides, the VQA annotations make it the first benchmark for the Urdu Text VQA method, which can prompt the development of Urdu scene text understanding. The proposed dataset is available at: https://github.com/Hiba-MeiRuan/Urdu-VQA-Dataset-/tree/main
- Abstract(参考訳): デジタルコンテンツにおけるアクセシビリティ、情報検索、言語多様性を向上するためには、Urduシーンのテキスト検出、認識、視覚質問応答(VQA)技術の開発が不可欠である。
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
テキスト検出,認識,VQAタスクに使用可能な,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスに対する微粒なアノテーションを提供し、任意の形のテキストに直面する前のデータセットの制限に対処する。
このデータセットは、追加のアノテーションポイントを組み込むことで、様々なテキストレイアウト、複雑な形状、そして現実世界のシナリオでよく見られる非標準的な向きを扱う方法の開発と評価を容易にする。
さらに、VQAアノテーションは、Urduのシーンテキスト理解の開発を促進するUrdu Text VQAメソッドの最初のベンチマークとなる。
提案されたデータセットは、https://github.com/Hiba-MeiRuan/Urdu-VQA-Dataset-/tree/mainで利用可能である。
関連論文リスト
- ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering [0.5803309695504829]
テキストベースのVQAの主な課題は、シーンテキストの意味と情報を活用することである。
近年の研究では、画像中のシーンテキストの空間的情報を考慮することでこの問題に対処している。
ベトナム語で書かれたシーンテキストからの情報を効果的に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:00:03Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images [1.2529442734851663]
ベトナムでは,画像に現れるテキストを理解する能力に特化して,最初の大規模データセットを導入する。
我々は、OCRテキスト中のトークンを処理し、回答を定式化するために選択する順序の重要性を明らかにする。
論文 参考訳(メタデータ) (2024-04-16T15:28:30Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Leveraging machine learning for less developed languages: Progress on
Urdu text detection [0.76146285961466]
本稿では,シーン画像からUrduテキストを検出する機械学習手法を提案する。
Urduテキストの研究を支援するため、研究用にデータを自由に利用できるようにすることを目標としている。
論文 参考訳(メタデータ) (2022-09-28T12:00:34Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Urdu text in natural scene images: a new dataset and preliminary text
detection [3.070994681743188]
本研究は,自然シーン画像におけるUrduテキストの新しいデータセットを導入する。
データセットは、実際のシーンから取得された500のスタンドアロンイメージで構成されている。
画像中の候補としてUrduテキスト領域を抽出するためにMSER法を適用する。
論文 参考訳(メタデータ) (2021-09-16T15:41:50Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。