論文の概要: On the Accuracy of CRNNs for Line-Based OCR: A Multi-Parameter
Evaluation
- arxiv url: http://arxiv.org/abs/2008.02777v1
- Date: Thu, 6 Aug 2020 17:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:29:07.984733
- Title: On the Accuracy of CRNNs for Line-Based OCR: A Multi-Parameter
Evaluation
- Title(参考訳): ラインベースOCRにおけるCRNNの精度について:マルチパラメータ評価
- Authors: Bernhard Liebl, Manuel Burghardt
- Abstract要約: 我々は、劣化した紙に難解な歴史的書体のための高品質な光学文字認識(OCR)モデルを訓練する。
我々は1万行のトレーニングデータから0.44%の文字誤り率(CER)モデルを得ることができる。
オープンソースのフレームワークであるCalamariに依存しているトレーニングパイプラインのすべてのコンポーネントの廃止点を紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how to train a high quality optical character recognition
(OCR) model for difficult historical typefaces on degraded paper. Through
extensive grid searches, we obtain a neural network architecture and a set of
optimal data augmentation settings. We discuss the influence of factors such as
binarization, input line height, network width, network depth, and other
network training parameters such as dropout. Implementing these findings into a
practical model, we are able to obtain a 0.44% character error rate (CER) model
from only 10,000 lines of training data, outperforming currently available
pretrained models that were trained on more than 20 times the amount of data.
We show ablations for all components of our training pipeline, which relies on
the open source framework Calamari.
- Abstract(参考訳): 劣化紙上での難解な歴史的書体に対する高品質光学文字認識(OCR)モデルの訓練方法について検討する。
広範なグリッド検索を通じて、ニューラルネットワークアーキテクチャと最適なデータ拡張設定のセットを得る。
本稿では,二項化,入力線高さ,ネットワーク幅,ネットワーク深さ,ドロップアウトなどのネットワークトレーニングパラメータの影響について論じる。
これらの知見を実用モデルに実装することで,1万行のトレーニングデータから0.44%の文字誤り率(cer)モデルを得ることができ,20倍以上のデータでトレーニングされた現在の事前学習モデルよりも優れている。
オープンソースのフレームワークであるCalamariに依存しているトレーニングパイプラインのすべてのコンポーネントの廃止点を紹介します。
関連論文リスト
- Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - TEN-GUARD: Tensor Decomposition for Backdoor Attack Detection in Deep
Neural Networks [3.489779105594534]
本稿では,ネットワークアクティベーションに適用した2つのテンソル分解法によるバックドア検出手法を提案する。
これは、複数のモデルを同時に分析する機能など、既存の検出方法と比較して、多くの利点がある。
その結果,現在の最先端手法よりも,バックドアネットワークを高精度かつ効率的に検出できることがわかった。
論文 参考訳(メタデータ) (2024-01-06T03:08:28Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Optimizing the Neural Network Training for OCR Error Correction of
Historical Hebrew Texts [0.934612743192798]
本稿では,ヘブライOCR後補正のための軽量ニューラルネットワークを,手作業で生成したデータよりもはるかに少ない精度でトレーニングする方法を提案する。
過去のOCR新聞の分析は、共通言語とコーパス固有のOCRエラーを学習するために行われた。
論文 参考訳(メタデータ) (2023-07-30T12:59:06Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Efficient deep learning models for land cover image classification [0.29748898344267777]
土地利用土地被覆(LULC)画像分類のためのBigEarthNetデータセットを用いて実験を行った。
コンボリューションニューラルネットワーク、マルチ層パーセプトロン、ビジュアルトランスフォーマー、効率的なネットワーク、ワイド残留ネットワーク(WRN)など、さまざまな最先端モデルをベンチマークする。
提案する軽量モデルは、訓練可能なパラメータが桁違いに小さく、平均的なFスコア分類精度が19のLULCクラスすべてに対して4.5%向上し、ベースラインとして使用するResNet50の2倍高速に訓練される。
論文 参考訳(メタデータ) (2021-11-18T00:03:14Z) - Parameter Prediction for Unseen Deep Architectures [23.79630072083828]
我々は、他のネットワークを訓練する過去の知識を利用して、ディープラーニングを使ってパラメータを直接予測できるかどうか検討する。
本稿では,CPU上でも1秒の間隔で1回のフォワードパスで性能パラメータを予測できるハイパーネットワークを提案する。
提案したモデルは、目に見えない多様なネットワーク上で驚くほど優れた性能を達成する。
論文 参考訳(メタデータ) (2021-10-25T16:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。