論文の概要: A Multiplexed Network for End-to-End, Multilingual OCR
- arxiv url: http://arxiv.org/abs/2103.15992v1
- Date: Mon, 29 Mar 2021 23:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:01:11.519098
- Title: A Multiplexed Network for End-to-End, Multilingual OCR
- Title(参考訳): エンドツーエンド多言語OCRのための多重ネットワーク
- Authors: Jing Huang, Guan Pang, Rama Kovvuri, Mandy Toh, Kevin J Liang, Praveen
Krishnan, Xi Yin, Tal Hassner
- Abstract要約: 単語レベルでスクリプト識別を行い,異なる認識ヘッドで異なるスクリプトを処理するE2Eアプローチ,Multiplexed Multilingual Mask TextSpotterを提案する。
実験の結果,本手法は終端認識タスクにおいて,パラメータ数に類似した単一ヘッドモデルよりも優れていた。
私たちは、エンドツーエンドのトレーニング可能でスケーラブルな多言語多目的OCRシステムへの一歩だと信じています。
- 参考スコア(独自算出の注目度): 20.818532124822713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in OCR have shown that an end-to-end (E2E) training pipeline
that includes both detection and recognition leads to the best results.
However, many existing methods focus primarily on Latin-alphabet languages,
often even only case-insensitive English characters. In this paper, we propose
an E2E approach, Multiplexed Multilingual Mask TextSpotter, that performs
script identification at the word level and handles different scripts with
different recognition heads, all while maintaining a unified loss that
simultaneously optimizes script identification and multiple recognition heads.
Experiments show that our method outperforms the single-head model with similar
number of parameters in end-to-end recognition tasks, and achieves
state-of-the-art results on MLT17 and MLT19 joint text detection and script
identification benchmarks. We believe that our work is a step towards the
end-to-end trainable and scalable multilingual multi-purpose OCR system. Our
code and model will be released.
- Abstract(参考訳): OCRの最近の進歩は、検出と認識の両方を含むエンドツーエンド(E2E)トレーニングパイプラインが最良の結果をもたらすことを示している。
しかし、既存の多くの方法は主にラテン・アルファベットの言語に焦点を合わせており、ケースに敏感な英語の文字だけを指すことが多い。
本稿では,文字識別と複数認識ヘッドを同時に最適化する統一的損失を維持しつつ,単語レベルでスクリプト識別を行い,異なる認識ヘッドを持つ異なるスクリプトを処理するe2eアプローチであるmultiplexed multilingual mask textspotterを提案する。
実験の結果,本手法は終端認識タスクにおけるパラメータ数に類似したシングルヘッドモデルよりも優れており,MLT17とMLT19の共同テキスト検出とスクリプト識別のベンチマークで最先端の結果が得られた。
私たちは、エンドツーエンドのトレーニング可能でスケーラブルな多言語多目的OCRシステムへの一歩だと信じています。
私たちのコードとモデルはリリースされます。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Task Grouping for Multilingual Text Recognition [28.036892501896983]
Gumbel-Softmax を用いたタスクグループ化と代入モジュールを用いた多言語テキスト認識の自動手法を提案する。
MLT19の実験は、全てのタスクを結合し、タスクグループ化/分離のより良い構成を達成する全てのタスクを分離する中間的な基盤が存在するという我々の仮説に証拠を与えている。
論文 参考訳(メタデータ) (2022-10-13T23:54:23Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Multi-script Handwritten Digit Recognition Using Multi-task Learning [2.8698937226234795]
堅牢で多目的なシステムの開発を促進するマルチスクリプトの桁認識では、あまり一般的ではない。
本研究では,マルチタスク学習を用いた手書き文字認識について検討する。
ラテン文字、アラビア文字、カンナダ文字を含む3文字の手書き桁は、個々のタスクを書き換えたマルチタスクモデルが有望な結果を示していることを示すために研究されている。
論文 参考訳(メタデータ) (2021-06-15T16:30:37Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。