論文の概要: SPAN: a Simple Predict & Align Network for Handwritten Paragraph
Recognition
- arxiv url: http://arxiv.org/abs/2102.08742v1
- Date: Wed, 17 Feb 2021 13:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:37:12.191153
- Title: SPAN: a Simple Predict & Align Network for Handwritten Paragraph
Recognition
- Title(参考訳): SPAN:手書きパラグラフ認識のための単純な予測とアライグネットワーク
- Authors: Denis Coquenet, Cl\'ement Chatelain, Thierry Paquet
- Abstract要約: 段落レベルでOCRを実行する終端から終端までの再帰のない完全畳み込みネットワークを提案する。
このフレームワークは、分離された行の認識に使用されるのと同じくらいシンプルで、3つの一般的なデータセットで競合する結果が得られる。
- 参考スコア(独自算出の注目度): 2.277447144331876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unconstrained handwriting recognition is an essential task in document
analysis. It is usually carried out in two steps. First, the document is
segmented into text lines. Second, an Optical Character Recognition model is
applied on these line images. We propose the Simple Predict & Align Network: an
end-to-end recurrence-free Fully Convolutional Network performing OCR at
paragraph level without any prior segmentation stage. The framework is as
simple as the one used for the recognition of isolated lines and we achieve
competitive results on three popular datasets: RIMES, IAM and READ 2016. The
proposed model does not require any dataset adaptation, it can be trained from
scratch, without segmentation labels, and it does not require line breaks in
the transcription labels. Our code and trained model weights are available at
https://github.com/FactoDeepLearning/SPAN.
- Abstract(参考訳): 文書解析において,非拘束手書き認識は重要な課題である。
通常、2つのステップで行われます。
まず、文書はテキスト行に分割されます。
次に、これらの線画像に光学文字認識モデルを適用する。
本研究では,パラグラフレベルでOCRを実行する完全畳み込み畳み込みネットワークであるSimple Predict & Align Networkを提案する。
このフレームワークは、分離された行の認識に使用されるのと同じくらいシンプルで、3つの一般的なデータセット(RIMES、IAM、READ 2016)で競合する結果が得られる。
提案モデルではデータセットの適応は一切必要とせず,スクラッチからトレーニングすることが可能で,セグメンテーションラベルは必要とせず,書き起こしラベルの線分も必要としない。
私たちのコードとトレーニングされたモデルウェイトはhttps://github.com/FactoDeepLearning/SPANで入手できます。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。
私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文 参考訳(メタデータ) (2023-07-15T21:49:22Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - Document Domain Randomization for Deep Learning Document Layout
Extraction [37.97092983885967]
文書領域のランダム化(DDR)は,図式化された擬似紙ページのみにトレーニングされた畳み込みニューラルネットワーク(CNN)の転送に成功した最初の例である。
DDRは、興味のあるランダム化されたテキストと非テキストの内容をモデル化することで、擬似文書ページをレンダリングする。
高忠実度意味情報はセマンティッククラスをラベル付けする必要はないが、列車とテスト間のスタイルミスマッチはモデルの精度を低下させる可能性がある。
論文 参考訳(メタデータ) (2021-05-20T19:16:04Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z) - One Thing One Click: A Self-Training Approach for Weakly Supervised 3D
Semantic Segmentation [78.36781565047656]
私たちは、アノテーションーがオブジェクトごとに1ポイントだけラベルを付ける必要があることを意味する「One Thing One Click」を提案します。
グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。
私たちの結果は、完全に監督されたものと同等です。
論文 参考訳(メタデータ) (2021-04-06T02:27:25Z) - End-to-end Handwritten Paragraph Text Recognition Using a Vertical
Attention Network [2.277447144331876]
本研究では,ハイブリッドアテンションを用いた統一型エンドツーエンドモデルを提案する。
3つの一般的なデータセット上で,文字誤り率を行と段落レベルで達成する。
論文 参考訳(メタデータ) (2020-12-07T17:31:20Z) - OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page
Text Recognition by learning to unfold [6.09170287691728]
セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。
我々は、CTCで訓練された完全畳み込み単行文字認識装置を拡張可能な、新しいシンプルなニューラルネットワークモジュール、textbfOrigamiNetを提案する。
IAM と ICDAR 2017 の HTR ベンチマークでは,手書き文字認識の精度が他のすべての手法を上回り,最先端の文字誤り率を実現している。
論文 参考訳(メタデータ) (2020-06-12T22:18:02Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。