Fugu-MT 論文翻訳(概要): Transfer Learning for Scene Text Recognition in Indian Languages

論文の概要: Transfer Learning for Scene Text Recognition in Indian Languages

arxiv url: http://arxiv.org/abs/2201.03180v1
Date: Mon, 10 Jan 2022 06:14:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-11 16:01:45.085911
Title: Transfer Learning for Scene Text Recognition in Indian Languages
Title（参考訳）: インド語におけるシーンテキスト認識のための移動学習
Authors: Sanjana Gunna, Rohit Saluja and C. V. Jawahar
Abstract要約: 本研究では、英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対するトランスファー学習の能力について検討する。インド語の単純な合成データセットへの英語モデルの移行は現実的ではないことを示す。我々は,IIIT-ILSTおよびBanglaデータセットからHindi,Telugu,Marayalamデータセットのシーンテキスト認識のための新しいベンチマークを,MLT-17から設定した。
参考スコア（独自算出の注目度）: 27.609596088151644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text recognition in low-resource Indian languages is challenging because of complexities like multiple scripts, fonts, text size, and orientations. In this work, we investigate the power of transfer learning for all the layers of deep scene text recognition networks from English to two common Indian languages. We perform experiments on the conventional CRNN model and STAR-Net to ensure generalisability. To study the effect of change in different scripts, we initially run our experiments on synthetic word images rendered using Unicode fonts. We show that the transfer of English models to simple synthetic datasets of Indian languages is not practical. Instead, we propose to apply transfer learning techniques among Indian languages due to similarity in their n-gram distributions and visual features like the vowels and conjunct characters. We then study the transfer learning among six Indian languages with varying complexities in fonts and word length statistics. We also demonstrate that the learned features of the models transferred from other Indian languages are visually closer (and sometimes even better) to the individual model features than those transferred from English. We finally set new benchmarks for scene-text recognition on Hindi, Telugu, and Malayalam datasets from IIIT-ILST and Bangla dataset from MLT-17 by achieving 6%, 5%, 2%, and 23% gains in Word Recognition Rates (WRRs) compared to previous works. We further improve the MLT-17 Bangla results by plugging in a novel correction BiLSTM into our model. We additionally release a dataset of around 440 scene images containing 500 Gujarati and 2535 Tamil words. WRRs improve over the baselines by 8%, 4%, 5%, and 3% on the MLT-19 Hindi and Bangla datasets and the Gujarati and Tamil datasets.
Abstract（参考訳）: 低リソースインド言語におけるシーンのテキスト認識は、複数のスクリプト、フォント、テキストサイズ、方向といった複雑さのために難しい。本研究では,英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対する移動学習能力について検討する。我々は,従来のCRNNモデルとSTAR-Netを用いて汎用性を確保する実験を行った。異なるスクリプトの変化の影響を調べるために、Unicodeフォントを用いて描画された合成語画像について実験を行った。インド語の単純な合成データセットへの英語モデルの転送は実用的ではないことを示す。代わりに,n-gram分布の類似性や母音や結合文字などの視覚的特徴から,インド言語間でのトランスファー学習手法を適用することを提案する。次に、フォントと単語長統計の複雑さが異なる6つのインド言語間の移動学習について研究する。また、他のインド言語から移行したモデルの学習機能は、英語から移行したモデルよりも個々のモデル機能に視覚的に近い(時には良い)ことも示しています。最後に、ヒンディー語、テルグ語、マラヤラム語のデータセットについて、mlt-17 の iiit-ilst と bangla のデータセットから 6%, 5%, 2%, 23% の単語認識率 (wrr) を達成して、シーンテキスト認識の新しいベンチマークを設定した。モデルに新しい修正BiLSTMを挿入することにより, MLT-17 Banglaの結果をさらに改善する。さらに,500のgujaratiと2535のタミル語を含む約440のシーンイメージのデータセットをリリースする。 WRRは、MLT-19 HindiとBanglaのデータセットとGujaratiとTamilのデータセットで、ベースラインを8%、4%、5%、3%改善する。

関連論文リスト

ILID: Native Script Language Identification for Indian Languages [0.0]
言語識別のコア課題は、ノイズの多い、短い、そしてコード混在した環境で言語を区別することにある。英語を含む23の言語と、その言語識別子をラベル付けした22の公用語からなる250K文のデータセットをリリースする。我々のモデルは、言語識別タスクのための最先端の訓練済みトランスフォーマーモデルより優れています。
論文参考訳（メタデータ） (2025-07-16T01:39:32Z)
Improving Informally Romanized Language Identification [49.404145019682666]
ローマ化は、ヒンディー語やウルドゥー語など、文字の難易度に基づいて、通常容易に区別できる言語を表現している。我々は、トレーニングセットを合成する手法を改善することにより、ロマライズされたテキストの言語識別(LID)精度を向上させる。本研究では,Bhasha-Abhijnaanam 評価セットにおける20のIndic言語からのロマン化テキストに対して,最先端の LID 性能を示す。
論文参考訳（メタデータ） (2025-04-30T11:36:28Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Multilingual Text Style Transfer: Datasets & Models for Indian Languages [1.116636487692753]
本稿では,インド諸言語にまたがるTSTサブタスクである感情伝達に焦点を当てた。これらの8言語それぞれに対して、1000の正と1000の負のスタイルパラレル文からなる専用データセットを導入する。並列性,非並列性,クロスランガル性,共有学習アプローチに分類した各種ベンチマークモデルの性能評価を行った。
論文参考訳（メタデータ） (2024-05-31T14:05:27Z)
Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach [0.0]
本稿では,ベンガル文字とネパール文字のテキスト認識について論じる。ベンガル語話者は約3億人、ネパール語話者は約4000万人である。その結果,提案手法が現在のアプローチと一致していることが示唆された。
論文参考訳（メタデータ） (2024-04-03T00:21:14Z)
IndiText Boost: Text Augmentation for Low Resource India Languages [0.0]
我々は,LLMを用いたテキスト生成や,異なる言語でのテキスト分類のためのLLMを用いたテキスト拡張といった手法の実装に重点を置いている。私たちの知識によれば、インドの言語に関するテキスト増補のための研究は存在しない。
論文参考訳（メタデータ） (2024-01-23T20:54:40Z)
TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。 Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文参考訳（メタデータ） (2024-01-12T15:12:48Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文参考訳（メタデータ） (2022-01-10T06:36:43Z)
Harnessing Cross-lingual Features to Improve Cognate Detection for Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文参考訳（メタデータ） (2021-12-16T11:17:58Z)
Offensive Language Identification in Low-resourced Code-mixed Dravidian languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文参考訳（メタデータ） (2021-08-27T08:43:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。