論文の概要: Utilizing Resource-Rich Language Datasets for End-to-End Scene Text
Recognition in Resource-Poor Languages
- arxiv url: http://arxiv.org/abs/2111.12276v1
- Date: Wed, 24 Nov 2021 05:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:38:24.688475
- Title: Utilizing Resource-Rich Language Datasets for End-to-End Scene Text
Recognition in Resource-Poor Languages
- Title(参考訳): リソース豊富な言語データセットを用いたリソースパウダー言語におけるエンド・ツー・エンドシーンのテキスト認識
- Authors: Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori,
Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura
- Abstract要約: 本稿では,エンド・ツー・エンドシーンのテキスト認識のための新しいトレーニング手法を提案する。
高精度なエンドツーエンドモデルをトレーニングするには、ターゲット言語のための大規模な画像とテキストのペア化データセットを作成する必要がある。
提案手法は,英語などの資源に富む言語において,資源の少ないエンコーダ・デコーダモデルを訓練するために,十分に準備された大規模データセットを利用する。
- 参考スコア(独自算出の注目度): 26.91186784763019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel training method for end-to-end scene text
recognition. End-to-end scene text recognition offers high recognition
accuracy, especially when using the encoder-decoder model based on Transformer.
To train a highly accurate end-to-end model, we need to prepare a large
image-to-text paired dataset for the target language. However, it is difficult
to collect this data, especially for resource-poor languages. To overcome this
difficulty, our proposed method utilizes well-prepared large datasets in
resource-rich languages such as English, to train the resource-poor
encoder-decoder model. Our key idea is to build a model in which the encoder
reflects knowledge of multiple languages while the decoder specializes in
knowledge of just the resource-poor language. To this end, the proposed method
pre-trains the encoder by using a multilingual dataset that combines the
resource-poor language's dataset and the resource-rich language's dataset to
learn language-invariant knowledge for scene text recognition. The proposed
method also pre-trains the decoder by using the resource-poor language's
dataset to make the decoder better suited to the resource-poor language.
Experiments on Japanese scene text recognition using a small, publicly
available dataset demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): 本稿では,エンド・ツー・エンドシーンのテキスト認識のための新しいトレーニング手法を提案する。
エンドツーエンドのシーンテキスト認識は、特にTransformerに基づくエンコーダデコーダモデルを使用する場合、高い認識精度を提供する。
高精度なエンドツーエンドモデルのトレーニングには、ターゲット言語用に大規模なイメージとテキストのペアリングデータセットを用意する必要があります。
しかし、特にリソースの貧弱な言語では、このデータを集めることは難しい。
この課題を克服するために,提案手法では,英語などのリソース豊富な言語で十分に準備された大規模データセットを用いて,リソース-poorエンコーダ-デコーダモデルをトレーニングする。
私たちのキーとなるアイデアは、エンコーダが複数の言語の知識を反映するモデルを構築することです。
この目的のために,提案手法は,資源不足言語データセットと資源豊富な言語データセットを組み合わせた多言語データセットを用いて,シーンテキスト認識のための言語不変知識を学習することにより,エンコーダを事前学習する。
提案手法は,デコーダをリソースポーア言語に適合させるために,リソースポーア言語のデータセットを用いてデコーダを事前訓練する。
公開データセットを用いた日本語シーン認識実験により,提案手法の有効性が示された。
関連論文リスト
- MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。
この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。
フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:59:33Z) - TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming [21.88026116276415]
テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
論文 参考訳(メタデータ) (2024-02-15T09:18:18Z) - Reverse-Engineering Decoding Strategies Given Blackbox Access to a
Language Generation System [73.52878118434147]
テキスト生成に使用する復号法をリバースエンジニアリングする手法を提案する。
どのようなデコード戦略が使われたかを検出する能力は、生成されたテキストを検出することに影響を及ぼす。
論文 参考訳(メタデータ) (2023-09-09T18:19:47Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。