論文の概要: OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page
Text Recognition by learning to unfold
- arxiv url: http://arxiv.org/abs/2006.07491v1
- Date: Fri, 12 Jun 2020 22:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 03:15:47.535364
- Title: OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page
Text Recognition by learning to unfold
- Title(参考訳): OrigamiNet: 拡張学習による弱めにスーパービジョンされたセグメンテーションフリー、ワンステップフルページテキスト認識
- Authors: Mohamed Yousef, Tom E. Bishop
- Abstract要約: セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。
我々は、CTCで訓練された完全畳み込み単行文字認識装置を拡張可能な、新しいシンプルなニューラルネットワークモジュール、textbfOrigamiNetを提案する。
IAM と ICDAR 2017 の HTR ベンチマークでは,手書き文字認識の精度が他のすべての手法を上回り,最先端の文字誤り率を実現している。
- 参考スコア(独自算出の注目度): 6.09170287691728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text recognition is a major computer vision task with a big set of associated
challenges. One of those traditional challenges is the coupled nature of text
recognition and segmentation. This problem has been progressively solved over
the past decades, going from segmentation based recognition to segmentation
free approaches, which proved more accurate and much cheaper to annotate data
for. We take a step from segmentation-free single line recognition towards
segmentation-free multi-line / full page recognition. We propose a novel and
simple neural network module, termed \textbf{OrigamiNet}, that can augment any
CTC-trained, fully convolutional single line text recognizer, to convert it
into a multi-line version by providing the model with enough spatial capacity
to be able to properly collapse a 2D input signal into 1D without losing
information. Such modified networks can be trained using exactly their same
simple original procedure, and using only \textbf{unsegmented} image and text
pairs. We carry out a set of interpretability experiments that show that our
trained models learn an accurate implicit line segmentation. We achieve
state-of-the-art character error rate on both IAM \& ICDAR 2017 HTR benchmarks
for handwriting recognition, surpassing all other methods in the literature. On
IAM we even surpass single line methods that use accurate localization
information during training. Our code is available online at
\url{https://github.com/IntuitionMachines/OrigamiNet}.
- Abstract(参考訳): テキスト認識はコンピュータビジョンの主要なタスクであり、関連する課題が多数ある。
従来の課題の1つは、テキスト認識とセグメンテーションの結合性である。
この問題は、セグメンテーションに基づく認識からセグメンテーションフリーアプローチまで、数十年にわたって徐々に解決されてきた。
セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。
我々は,CTCで訓練された完全畳み込み単一線テキスト認識器を拡張可能な,新しい,シンプルなニューラルネットワークモジュールであるtextbf{OrigamiNet}を提案し,情報を失わずに2次元入力信号を正確に1Dに分解できる十分な空間容量のモデルを提供することで,それをマルチラインバージョンに変換する。
このような修正されたネットワークは、まったく同じ単純なオリジナルプロシージャを使用してトレーニングでき、画像とテキストペアのみを使用することができる。
我々は、トレーニングされたモデルが正確な暗黙の線分法を学ぶことを示す一連の解釈可能性実験を行う。
手書き認識のためのiam \& icdar 2017 htrベンチマークにおいて,最先端の文字誤り率を達成し,文献の他の手法を上回った。
IAMでは、トレーニング中に正確なローカライズ情報を使用する単行法を超越している。
私たちのコードは \url{https://github.com/intuitionmachines/origaminet} で利用可能です。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z) - One Thing One Click: A Self-Training Approach for Weakly Supervised 3D
Semantic Segmentation [78.36781565047656]
私たちは、アノテーションーがオブジェクトごとに1ポイントだけラベルを付ける必要があることを意味する「One Thing One Click」を提案します。
グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。
私たちの結果は、完全に監督されたものと同等です。
論文 参考訳(メタデータ) (2021-04-06T02:27:25Z) - SPAN: a Simple Predict & Align Network for Handwritten Paragraph
Recognition [2.277447144331876]
段落レベルでOCRを実行する終端から終端までの再帰のない完全畳み込みネットワークを提案する。
このフレームワークは、分離された行の認識に使用されるのと同じくらいシンプルで、3つの一般的なデータセットで競合する結果が得られる。
論文 参考訳(メタデータ) (2021-02-17T13:12:45Z) - End-to-end Handwritten Paragraph Text Recognition Using a Vertical
Attention Network [2.277447144331876]
本研究では,ハイブリッドアテンションを用いた統一型エンドツーエンドモデルを提案する。
3つの一般的なデータセット上で,文字誤り率を行と段落レベルで達成する。
論文 参考訳(メタデータ) (2020-12-07T17:31:20Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。