Fugu-MT 論文翻訳(概要): Offline Handwritten Chinese Text Recognition with Convolutional Neural Networks

論文の概要: Offline Handwritten Chinese Text Recognition with Convolutional Neural Networks

arxiv url: http://arxiv.org/abs/2006.15619v1
Date: Sun, 28 Jun 2020 14:34:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-16 02:51:28.209436
Title: Offline Handwritten Chinese Text Recognition with Convolutional Neural Networks
Title（参考訳）: 畳み込みニューラルネットワークを用いたオフライン手書き中国語テキスト認識
Authors: Brian Liu, Xianchao Xu, Yu Zhang
Abstract要約: 本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。 ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
参考スコア（独自算出の注目度）: 5.984124397831814
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Deep learning based methods have been dominating the text recognition tasks in different and multilingual scenarios. The offline handwritten Chinese text recognition (HCTR) is one of the most challenging tasks because it involves thousands of characters, variant writing styles and complex data collection process. Recently, the recurrent-free architectures for text recognition appears to be competitive as its highly parallelism and comparable results. In this paper, we build the models using only the convolutional neural networks and use CTC as the loss function. To reduce the overfitting, we apply dropout after each max-pooling layer and with extreme high rate on the last one before the linear layer. The CASIA-HWDB database is selected to tune and evaluate the proposed models. With the existing text samples as templates, we randomly choose isolated character samples to synthesis more text samples for training. We finally achieve 6.81% character error rate (CER) on the ICDAR 2013 competition set, which is the best published result without language model correction.
Abstract（参考訳）: ディープラーニングに基づく手法は、異なるシナリオと多言語シナリオにおけるテキスト認識タスクを支配してきた。オフライン手書き文字認識(HCTR)は、何千もの文字、変種書き込みスタイル、複雑なデータ収集プロセスを含むため、最も難しいタスクの1つである。近年、テキスト認識のための再カレントフリーアーキテクチャは、高い並列性と同等の結果として競合しているようである。本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。オーバーフィッティングを低減するため, 各最大プーリング層の後, ライン層前の最後の1層に極端に高い速度でドロップアウトを施す。 CASIA-HWDBデータベースは提案モデルのチューニングと評価を行う。既存のテキストサンプルをテンプレートとして、独立した文字サンプルをランダムに選択して、トレーニング用のテキストサンプルを合成します。 ICDAR 2013のコンペティションセットでは,言語モデル修正なしで6.81%の文字誤り率(CER)が達成された。

関連論文リスト

Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文参考訳（メタデータ） (2024-10-17T08:05:02Z)
Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文参考訳（メタデータ） (2024-02-27T14:16:19Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
Multi-label Text Classification using GloVe and Neural Network Models [0.27195102129094995]
既存のソリューションには、予測のための従来の機械学習とディープニューラルネットワークが含まれる。本稿では,GloVe モデルと CNN-BiLSTM ネットワークに基づくback-of-words モデル手法を提案する。テストセットの精度は87.26%、F1スコアは0.8737であり、有望な結果を示している。
論文参考訳（メタデータ） (2023-10-25T01:30:26Z)
Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文参考訳（メタデータ） (2023-08-29T05:44:00Z)
Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-07-13T05:03:26Z)
Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文参考訳（メタデータ） (2023-01-22T18:22:55Z)
GENIUS: Sketch-based Language Model Pre-training via Extreme and Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。 genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文参考訳（メタデータ） (2022-11-18T16:39:45Z)
Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文参考訳（メタデータ） (2022-07-29T20:39:02Z)
Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文参考訳（メタデータ） (2021-12-26T07:31:03Z)
Boosting offline handwritten text recognition in historical documents with few labeled lines [5.9207487081080705]
大規模データベースからより小さな歴史データベースへの転送学習の方法を分析する。第2に、TLとデータ拡張を効率的に組み合わせる手法を解析する。トレーニングセットにおける誤りラベリングの効果を緩和するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-04T11:59:35Z)
OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page Text Recognition by learning to unfold [6.09170287691728]
セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。我々は、CTCで訓練された完全畳み込み単行文字認識装置を拡張可能な、新しいシンプルなニューラルネットワークモジュール、textbfOrigamiNetを提案する。 IAM と ICDAR 2017 の HTR ベンチマークでは,手書き文字認識の精度が他のすべての手法を上回り,最先端の文字誤り率を実現している。
論文参考訳（メタデータ） (2020-06-12T22:18:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。