論文の概要: Transfer Learning for Scene Text Recognition in Indian Languages
- arxiv url: http://arxiv.org/abs/2201.03180v1
- Date: Mon, 10 Jan 2022 06:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:01:45.085911
- Title: Transfer Learning for Scene Text Recognition in Indian Languages
- Title(参考訳): インド語におけるシーンテキスト認識のための移動学習
- Authors: Sanjana Gunna, Rohit Saluja and C. V. Jawahar
- Abstract要約: 本研究では、英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対するトランスファー学習の能力について検討する。
インド語の単純な合成データセットへの英語モデルの移行は現実的ではないことを示す。
我々は,IIIT-ILSTおよびBanglaデータセットからHindi,Telugu,Marayalamデータセットのシーンテキスト認識のための新しいベンチマークを,MLT-17から設定した。
- 参考スコア(独自算出の注目度): 27.609596088151644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition in low-resource Indian languages is challenging
because of complexities like multiple scripts, fonts, text size, and
orientations. In this work, we investigate the power of transfer learning for
all the layers of deep scene text recognition networks from English to two
common Indian languages. We perform experiments on the conventional CRNN model
and STAR-Net to ensure generalisability. To study the effect of change in
different scripts, we initially run our experiments on synthetic word images
rendered using Unicode fonts. We show that the transfer of English models to
simple synthetic datasets of Indian languages is not practical. Instead, we
propose to apply transfer learning techniques among Indian languages due to
similarity in their n-gram distributions and visual features like the vowels
and conjunct characters. We then study the transfer learning among six Indian
languages with varying complexities in fonts and word length statistics. We
also demonstrate that the learned features of the models transferred from other
Indian languages are visually closer (and sometimes even better) to the
individual model features than those transferred from English. We finally set
new benchmarks for scene-text recognition on Hindi, Telugu, and Malayalam
datasets from IIIT-ILST and Bangla dataset from MLT-17 by achieving 6%, 5%, 2%,
and 23% gains in Word Recognition Rates (WRRs) compared to previous works. We
further improve the MLT-17 Bangla results by plugging in a novel correction
BiLSTM into our model. We additionally release a dataset of around 440 scene
images containing 500 Gujarati and 2535 Tamil words. WRRs improve over the
baselines by 8%, 4%, 5%, and 3% on the MLT-19 Hindi and Bangla datasets and the
Gujarati and Tamil datasets.
- Abstract(参考訳): 低リソースインド言語におけるシーンのテキスト認識は、複数のスクリプト、フォント、テキストサイズ、方向といった複雑さのために難しい。
本研究では,英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対する移動学習能力について検討する。
我々は,従来のCRNNモデルとSTAR-Netを用いて汎用性を確保する実験を行った。
異なるスクリプトの変化の影響を調べるために、Unicodeフォントを用いて描画された合成語画像について実験を行った。
インド語の単純な合成データセットへの英語モデルの転送は実用的ではないことを示す。
代わりに,n-gram分布の類似性や母音や結合文字などの視覚的特徴から,インド言語間でのトランスファー学習手法を適用することを提案する。
次に、フォントと単語長統計の複雑さが異なる6つのインド言語間の移動学習について研究する。
また、他のインド言語から移行したモデルの学習機能は、英語から移行したモデルよりも個々のモデル機能に視覚的に近い(時には良い)ことも示しています。
最後に、ヒンディー語、テルグ語、マラヤラム語のデータセットについて、mlt-17 の iiit-ilst と bangla のデータセットから 6%, 5%, 2%, 23% の単語認識率 (wrr) を達成して、シーンテキスト認識の新しいベンチマークを設定した。
モデルに新しい修正BiLSTMを挿入することにより, MLT-17 Banglaの結果をさらに改善する。
さらに,500のgujaratiと2535のタミル語を含む約440のシーンイメージのデータセットをリリースする。
WRRは、MLT-19 HindiとBanglaのデータセットとGujaratiとTamilのデータセットで、ベースラインを8%、4%、5%、3%改善する。
関連論文リスト
- IndiText Boost: Text Augmentation for Low Resource India Languages [0.0]
我々は,LLMを用いたテキスト生成や,異なる言語でのテキスト分類のためのLLMを用いたテキスト拡張といった手法の実装に重点を置いている。
私たちの知識によれば、インドの言語に関するテキスト増補のための研究は存在しない。
論文 参考訳(メタデータ) (2024-01-23T20:54:40Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Towards Scene-Text to Scene-Text Translation [2.243832625209014]
本研究では,シーンテキストをソース言語からターゲット言語に翻訳する作業について検討する。
視覚翻訳は、シーンテキストの認識と翻訳だけでなく、翻訳された画像の生成も含む。
本稿では,新しい条件付き拡散法であるVTNetを紹介する。
論文 参考訳(メタデータ) (2023-08-06T05:23:25Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Hate and Offensive Speech Detection in Hindi and Marathi [0.0]
それでもヘイトと攻撃的な音声検出は、データの入手が不十分なため、課題に直面している。
本研究では,ヒンディー語文とマラタイ語文のヘイトと攻撃的な音声検出について考察する。
CNNやLSTM,多言語BERT,IndicBERT,モノリンガルRoBERTaといったBERTのバリエーションなど,さまざまなディープラーニングアーキテクチャについて検討する。
我々は,変換器をベースとしたモデルが,FastText埋め込みとともに基本モデルでも最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-10-23T11:57:36Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。