論文の概要: Recurrence-free unconstrained handwritten text recognition using gated
fully convolutional network
- arxiv url: http://arxiv.org/abs/2012.04961v1
- Date: Wed, 9 Dec 2020 10:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:03:22.652244
- Title: Recurrence-free unconstrained handwritten text recognition using gated
fully convolutional network
- Title(参考訳): ゲート型完全畳み込みネットワークを用いた繰り返しなし無拘束手書き文字認識
- Authors: Denis Coquenet, Cl\'ement Chatelain, Thierry Paquet
- Abstract要約: 制約のない手書きテキスト認識は、ほとんどのドキュメント分析タスクの主要なステップです。
LSTM細胞を使用する別の方法の1つは、畳み込み層を多用して長期記憶損失を補うことである。
我々は、よく知られたCNN+LSTMアーキテクチャの再発のない代替であるGated Fully Convolutional Networkアーキテクチャを紹介します。
- 参考スコア(独自算出の注目度): 2.277447144331876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unconstrained handwritten text recognition is a major step in most document
analysis tasks. This is generally processed by deep recurrent neural networks
and more specifically with the use of Long Short-Term Memory cells. The main
drawbacks of these components are the large number of parameters involved and
their sequential execution during training and prediction. One alternative
solution to using LSTM cells is to compensate the long time memory loss with an
heavy use of convolutional layers whose operations can be executed in parallel
and which imply fewer parameters. In this paper we present a Gated Fully
Convolutional Network architecture that is a recurrence-free alternative to the
well-known CNN+LSTM architectures. Our model is trained with the CTC loss and
shows competitive results on both the RIMES and IAM datasets. We release all
code to enable reproduction of our experiments:
https://github.com/FactoDeepLearning/LinePytorchOCR.
- Abstract(参考訳): 制約のない手書き文字認識は、ほとんどの文書分析タスクにおいて大きなステップである。
これは一般的にディープリカレントニューラルネットワークによって処理され、より具体的にはロング短期記憶細胞を用いて処理される。
これらのコンポーネントの主な欠点は、大量のパラメータと、トレーニングと予測中のシーケンシャルな実行である。
LSTMセルを使用する別の方法の1つは、操作を並列に実行し、パラメータを少なくする畳み込み層を多用することで、長期記憶損失を補うことである。
本稿では、よく知られたCNN+LSTMアーキテクチャに代わる再帰のないアーキテクチャであるGated Fully Convolutional Networkアーキテクチャを提案する。
我々のモデルはCTC損失をトレーニングし,RIMESおよびIAMデータセットの競合結果を示す。
実験を再現するためのすべてのコードをリリースします。 https://github.com/factodeeplearning/linepytorchocr。
関連論文リスト
- Scaling up ridge regression for brain encoding in a massive individual fMRI dataset [1.740992908651449]
本稿では,リッジ回帰を伴う脳エンコーディングの訓練時間を短縮するために,異なる並列化手法を評価する。
マルチスレッドでは、Intel Math Kernel Library (MKL) がOpenBLASライブラリを著しく上回っている。
本稿では,時間複雑性解析に動機づけられたDask並列化の"バッチ"バージョンを提案する。
論文 参考訳(メタデータ) (2024-03-28T13:52:12Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Image Classification using Sequence of Pixels [3.04585143845864]
本研究では,繰り返しニューラルネットワークを用いた逐次画像分類法の比較を行った。
本稿では,Long-Short-Term memory(LSTM)やBidirectional Long-Short-Term memory(BiLSTM)アーキテクチャに基づく手法について述べる。
論文 参考訳(メタデータ) (2022-09-23T09:42:44Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z) - Recursively Refined R-CNN: Instance Segmentation with Self-RoI
Rebalancing [2.4634850020708616]
本稿では,ループ機構を導入することで重複を回避するR-CNN(R3$-CNN)を提案する。
実験では,重みのループ機構の特定のエンコーディングに注目し,推論時に使用する必要がある。
このアーキテクチャは、最近提案されたHTCモデルを超えることができ、パラメータの数を著しく削減できる。
論文 参考訳(メタデータ) (2021-04-03T07:25:33Z) - Have convolutions already made recurrence obsolete for unconstrained
handwritten text recognition ? [3.0969191504482247]
制約のない手書きテキスト認識は、ディープニューラルネットワークにとって重要な課題です。
リカレントネットワークとLong Short-Term Memory Networkはこの分野で最先端の性能を達成した。
RIMESデータセットを用いたオフライン手書き認識タスクにおける異なるアーキテクチャに関する実験的研究を提案する。
論文 参考訳(メタデータ) (2020-12-09T10:15:24Z) - EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文 参考訳(メタデータ) (2020-08-18T10:26:03Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。