論文の概要: A Multiplexed Network for End-to-End, Multilingual OCR
- arxiv url: http://arxiv.org/abs/2103.15992v1
- Date: Mon, 29 Mar 2021 23:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:01:11.519098
- Title: A Multiplexed Network for End-to-End, Multilingual OCR
- Title(参考訳): エンドツーエンド多言語OCRのための多重ネットワーク
- Authors: Jing Huang, Guan Pang, Rama Kovvuri, Mandy Toh, Kevin J Liang, Praveen
Krishnan, Xi Yin, Tal Hassner
- Abstract要約: 単語レベルでスクリプト識別を行い,異なる認識ヘッドで異なるスクリプトを処理するE2Eアプローチ,Multiplexed Multilingual Mask TextSpotterを提案する。
実験の結果,本手法は終端認識タスクにおいて,パラメータ数に類似した単一ヘッドモデルよりも優れていた。
私たちは、エンドツーエンドのトレーニング可能でスケーラブルな多言語多目的OCRシステムへの一歩だと信じています。
- 参考スコア(独自算出の注目度): 20.818532124822713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in OCR have shown that an end-to-end (E2E) training pipeline
that includes both detection and recognition leads to the best results.
However, many existing methods focus primarily on Latin-alphabet languages,
often even only case-insensitive English characters. In this paper, we propose
an E2E approach, Multiplexed Multilingual Mask TextSpotter, that performs
script identification at the word level and handles different scripts with
different recognition heads, all while maintaining a unified loss that
simultaneously optimizes script identification and multiple recognition heads.
Experiments show that our method outperforms the single-head model with similar
number of parameters in end-to-end recognition tasks, and achieves
state-of-the-art results on MLT17 and MLT19 joint text detection and script
identification benchmarks. We believe that our work is a step towards the
end-to-end trainable and scalable multilingual multi-purpose OCR system. Our
code and model will be released.
- Abstract(参考訳): OCRの最近の進歩は、検出と認識の両方を含むエンドツーエンド(E2E)トレーニングパイプラインが最良の結果をもたらすことを示している。
しかし、既存の多くの方法は主にラテン・アルファベットの言語に焦点を合わせており、ケースに敏感な英語の文字だけを指すことが多い。
本稿では,文字識別と複数認識ヘッドを同時に最適化する統一的損失を維持しつつ,単語レベルでスクリプト識別を行い,異なる認識ヘッドを持つ異なるスクリプトを処理するe2eアプローチであるmultiplexed multilingual mask textspotterを提案する。
実験の結果,本手法は終端認識タスクにおけるパラメータ数に類似したシングルヘッドモデルよりも優れており,MLT17とMLT19の共同テキスト検出とスクリプト識別のベンチマークで最先端の結果が得られた。
私たちは、エンドツーエンドのトレーニング可能でスケーラブルな多言語多目的OCRシステムへの一歩だと信じています。
私たちのコードとモデルはリリースされます。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script
Handwritten Text Recognition [7.39273105421963]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Task Grouping for Multilingual Text Recognition [28.036892501896983]
Gumbel-Softmax を用いたタスクグループ化と代入モジュールを用いた多言語テキスト認識の自動手法を提案する。
MLT19の実験は、全てのタスクを結合し、タスクグループ化/分離のより良い構成を達成する全てのタスクを分離する中間的な基盤が存在するという我々の仮説に証拠を与えている。
論文 参考訳(メタデータ) (2022-10-13T23:54:23Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Multi-script Handwritten Digit Recognition Using Multi-task Learning [2.8698937226234795]
堅牢で多目的なシステムの開発を促進するマルチスクリプトの桁認識では、あまり一般的ではない。
本研究では,マルチタスク学習を用いた手書き文字認識について検討する。
ラテン文字、アラビア文字、カンナダ文字を含む3文字の手書き桁は、個々のタスクを書き換えたマルチタスクモデルが有望な結果を示していることを示すために研究されている。
論文 参考訳(メタデータ) (2021-06-15T16:30:37Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。