Fugu-MT 論文翻訳(概要): Towards Boosting the Accuracy of Non-Latin Scene Text Recognition

論文の概要: Towards Boosting the Accuracy of Non-Latin Scene Text Recognition

arxiv url: http://arxiv.org/abs/2201.03185v1
Date: Mon, 10 Jan 2022 06:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-11 16:01:15.005141
Title: Towards Boosting the Accuracy of Non-Latin Scene Text Recognition
Title（参考訳）: 非ラテンシーン音声認識の精度向上に向けて
Authors: Sanjana Gunna, Rohit Saluja and C. V. Jawahar
Abstract要約: シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
参考スコア（独自算出の注目度）: 27.609596088151644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene-text recognition is remarkably better in Latin languages than the non-Latin languages due to several factors like multiple fonts, simplistic vocabulary statistics, updated data generation tools, and writing systems. This paper examines the possible reasons for low accuracy by comparing English datasets with non-Latin languages. We compare various features like the size (width and height) of the word images and word length statistics. Over the last decade, generating synthetic datasets with powerful deep learning techniques has tremendously improved scene-text recognition. Several controlled experiments are performed on English, by varying the number of (i) fonts to create the synthetic data and (ii) created word images. We discover that these factors are critical for the scene-text recognition systems. The English synthetic datasets utilize over 1400 fonts while Arabic and other non-Latin datasets utilize less than 100 fonts for data generation. Since some of these languages are a part of different regions, we garner additional fonts through a region-based search to improve the scene-text recognition models in Arabic and Devanagari. We improve the Word Recognition Rates (WRRs) on Arabic MLT-17 and MLT-19 datasets by 24.54% and 2.32% compared to previous works or baselines. We achieve WRR gains of 7.88% and 3.72% for IIIT-ILST and MLT-19 Devanagari datasets.
Abstract（参考訳）: シーンテキスト認識は、複数のフォント、単純語彙統計、更新されたデータ生成ツール、書き起こしシステムといったいくつかの要因により、ラテン言語よりも著しく優れている。本稿では、英語データセットと非ラテン語言語を比較して、低い精度の理由について検討する。単語画像のサイズ(幅と高さ)や単語長の統計値など,様々な特徴を比較する。過去10年間で、強力なディープラーニング技術を用いた合成データセットの生成は、シーンテキスト認識を大幅に改善した。いくつかの制御された実験が英語で行われます (i)合成データを作成するためのフォント及び (ii)単語画像の作成。これらの要因がシーンテキスト認識システムにとって重要であることを見出した。英語の合成データセットは1400以上のフォントを使用し、アラビア語や他の非ラテン語のデータセットはデータ生成に100未満のフォントを使用する。これらの言語の一部は異なる地域の一部であるため、アラビア語とデバナガリ語のシーンテキスト認識モデルを改善するために、地域ベースの検索を通じて追加のフォントを収集する。我々は、アラビア語のMLT-17およびMLT-19データセットにおける単語認識率(WRR)を、以前の作品やベースラインと比較して24.54%と2.32%改善する。我々は IIIT-ILST と MLT-19 Devanagari データセットで WRR の上昇率 7.88% と 3.72% を達成する。

関連論文リスト

Improving Informally Romanized Language Identification [49.404145019682666]
ローマ化は、ヒンディー語やウルドゥー語など、文字の難易度に基づいて、通常容易に区別できる言語を表現している。我々は、トレーニングセットを合成する手法を改善することにより、ロマライズされたテキストの言語識別(LID)精度を向上させる。本研究では,Bhasha-Abhijnaanam 評価セットにおける20のIndic言語からのロマン化テキストに対して,最先端の LID 性能を示す。
論文参考訳（メタデータ） (2025-04-30T11:36:28Z)
Multi-language Video Subtitle Dataset for Image-based Text Recognition [0.0]
このデータセットには、オンラインプラットフォームからソースされた24のビデオから抽出された4,224の字幕イメージが含まれている。タイ語の子音、母音、トーンマーク、句読点、数字、ローマ字、アラビア数字など様々な文字が特徴である。
論文参考訳（メタデータ） (2024-11-07T00:06:53Z)
KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文参考訳（メタデータ） (2024-10-23T21:04:24Z)
Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文参考訳（メタデータ） (2024-07-02T14:51:20Z)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (2024-06-12T17:01:04Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文参考訳（メタデータ） (2024-03-12T18:14:48Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文参考訳（メタデータ） (2022-03-23T03:19:35Z)
Transfer Learning for Scene Text Recognition in Indian Languages [27.609596088151644]
本研究では、英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対するトランスファー学習の能力について検討する。インド語の単純な合成データセットへの英語モデルの移行は現実的ではないことを示す。我々は,IIIT-ILSTおよびBanglaデータセットからHindi,Telugu,Marayalamデータセットのシーンテキスト認識のための新しいベンチマークを,MLT-17から設定した。
論文参考訳（メタデータ） (2022-01-10T06:14:49Z)
Tamizhi-Net OCR: Creating A Quality Large Scale Tamil-Sinhala-English Parallel Corpus Using Deep Learning Based Printed Character Recognition (PCR) [2.0305676256390934]
低リソース言語のほとんどは、実質的なモノリンガルコーパスを作成するために必要なリソースを持っていない。これらの言語は政府の手続きでしばしば見られるが、主にレガシーフォントを含むポータブル文書フォーマット(PDF)の形式である。これらの文書からテキストを抽出してモノリンガルコーパスを作成することは、レガシーフォントの使用とプリンタフレンドリーなエンコーディングのために困難である。
論文参考訳（メタデータ） (2021-09-13T13:26:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。