論文の概要: Transfer Learning for Scene Text Recognition in Indian Languages
- arxiv url: http://arxiv.org/abs/2201.03180v1
- Date: Mon, 10 Jan 2022 06:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:01:45.085911
- Title: Transfer Learning for Scene Text Recognition in Indian Languages
- Title(参考訳): インド語におけるシーンテキスト認識のための移動学習
- Authors: Sanjana Gunna, Rohit Saluja and C. V. Jawahar
- Abstract要約: 本研究では、英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対するトランスファー学習の能力について検討する。
インド語の単純な合成データセットへの英語モデルの移行は現実的ではないことを示す。
我々は,IIIT-ILSTおよびBanglaデータセットからHindi,Telugu,Marayalamデータセットのシーンテキスト認識のための新しいベンチマークを,MLT-17から設定した。
- 参考スコア(独自算出の注目度): 27.609596088151644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition in low-resource Indian languages is challenging
because of complexities like multiple scripts, fonts, text size, and
orientations. In this work, we investigate the power of transfer learning for
all the layers of deep scene text recognition networks from English to two
common Indian languages. We perform experiments on the conventional CRNN model
and STAR-Net to ensure generalisability. To study the effect of change in
different scripts, we initially run our experiments on synthetic word images
rendered using Unicode fonts. We show that the transfer of English models to
simple synthetic datasets of Indian languages is not practical. Instead, we
propose to apply transfer learning techniques among Indian languages due to
similarity in their n-gram distributions and visual features like the vowels
and conjunct characters. We then study the transfer learning among six Indian
languages with varying complexities in fonts and word length statistics. We
also demonstrate that the learned features of the models transferred from other
Indian languages are visually closer (and sometimes even better) to the
individual model features than those transferred from English. We finally set
new benchmarks for scene-text recognition on Hindi, Telugu, and Malayalam
datasets from IIIT-ILST and Bangla dataset from MLT-17 by achieving 6%, 5%, 2%,
and 23% gains in Word Recognition Rates (WRRs) compared to previous works. We
further improve the MLT-17 Bangla results by plugging in a novel correction
BiLSTM into our model. We additionally release a dataset of around 440 scene
images containing 500 Gujarati and 2535 Tamil words. WRRs improve over the
baselines by 8%, 4%, 5%, and 3% on the MLT-19 Hindi and Bangla datasets and the
Gujarati and Tamil datasets.
- Abstract(参考訳): 低リソースインド言語におけるシーンのテキスト認識は、複数のスクリプト、フォント、テキストサイズ、方向といった複雑さのために難しい。
本研究では,英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対する移動学習能力について検討する。
我々は,従来のCRNNモデルとSTAR-Netを用いて汎用性を確保する実験を行った。
異なるスクリプトの変化の影響を調べるために、Unicodeフォントを用いて描画された合成語画像について実験を行った。
インド語の単純な合成データセットへの英語モデルの転送は実用的ではないことを示す。
代わりに,n-gram分布の類似性や母音や結合文字などの視覚的特徴から,インド言語間でのトランスファー学習手法を適用することを提案する。
次に、フォントと単語長統計の複雑さが異なる6つのインド言語間の移動学習について研究する。
また、他のインド言語から移行したモデルの学習機能は、英語から移行したモデルよりも個々のモデル機能に視覚的に近い(時には良い)ことも示しています。
最後に、ヒンディー語、テルグ語、マラヤラム語のデータセットについて、mlt-17 の iiit-ilst と bangla のデータセットから 6%, 5%, 2%, 23% の単語認識率 (wrr) を達成して、シーンテキスト認識の新しいベンチマークを設定した。
モデルに新しい修正BiLSTMを挿入することにより, MLT-17 Banglaの結果をさらに改善する。
さらに,500のgujaratiと2535のタミル語を含む約440のシーンイメージのデータセットをリリースする。
WRRは、MLT-19 HindiとBanglaのデータセットとGujaratiとTamilのデータセットで、ベースラインを8%、4%、5%、3%改善する。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Multilingual Text Style Transfer: Datasets & Models for Indian Languages [1.116636487692753]
本稿では,インド諸言語にまたがるTSTサブタスクである感情伝達に焦点を当てた。
これらの8言語それぞれに対して、1000の正と1000の負のスタイルパラレル文からなる専用データセットを導入する。
並列性,非並列性,クロスランガル性,共有学習アプローチに分類した各種ベンチマークモデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-05-31T14:05:27Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach [0.0]
本稿では,ベンガル文字とネパール文字のテキスト認識について論じる。
ベンガル語話者は約3億人、ネパール語話者は約4000万人である。
その結果,提案手法が現在のアプローチと一致していることが示唆された。
論文 参考訳(メタデータ) (2024-04-03T00:21:14Z) - IndiText Boost: Text Augmentation for Low Resource India Languages [0.0]
我々は,LLMを用いたテキスト生成や,異なる言語でのテキスト分類のためのLLMを用いたテキスト拡張といった手法の実装に重点を置いている。
私たちの知識によれば、インドの言語に関するテキスト増補のための研究は存在しない。
論文 参考訳(メタデータ) (2024-01-23T20:54:40Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。