論文の概要: Unfolder: Fast localization and image rectification of a document with a
crease from folding in half
- arxiv url: http://arxiv.org/abs/2312.00467v1
- Date: Fri, 1 Dec 2023 10:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-04 15:07:28.127940
- Title: Unfolder: Fast localization and image rectification of a document with a
crease from folding in half
- Title(参考訳): unfolder: 折りたたみから折り目のある文書の高速ローカライズと画像修正
- Authors: A.M. Ershov, D.V. Tropin, E.E. Limonova, D.P. Nikolaev and V.V.
Arlazarov
- Abstract要約: アンフォールダー(英: Unfolder)は、文書を半分に折りたたむための新しい幾何学的補正法である。
データセットには、ドキュメントがテーブル上に置かれ、手元に保持されているときにキャプチャされた1600の画像が含まれている。
このアルゴリズムは認識誤り率0.33を許容し、これは先進的なニューラルネットワーク手法DocTr (0.44) とDewarpNet (0.57) よりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Presentation of folded documents is not an uncommon case in modern society.
Digitizing such documents by capturing them with a smartphone camera can be
tricky since a crease can divide the document contents into separate planes. To
unfold the document, one could hold the edges potentially obscuring it in a
captured image. While there are many geometrical rectification methods, they
were usually developed for arbitrary bends and folds. We consider such
algorithms and propose a novel approach Unfolder developed specifically for
images of documents with a crease from folding in half. Unfolder is robust to
projective distortions of the document image and does not fragment the image in
the vicinity of a crease after rectification. A new Folded Document Images
dataset was created to investigate the rectification accuracy of folded (2, 3,
4, and 8 folds) documents. The dataset includes 1600 images captured when
document placed on a table and when held in hand. The Unfolder algorithm
allowed for a recognition error rate of 0.33, which is better than the advanced
neural network methods DocTr (0.44) and DewarpNet (0.57). The average runtime
for Unfolder was only 0.25 s/image on an iPhone XR.
- Abstract(参考訳): 折り畳まれた文書の提示は現代社会では珍しいことではない。
このような文書をスマートフォンカメラで捉えてデジタル化することは、文書内容を別々の平面に分割できるため、難しい。
文書を広げるためには、エッジをキャプチャした画像に隠しておくことができる。
幾何的整形法は数多く存在するが、通常は任意の曲がり角と折りたたみのために開発された。
このようなアルゴリズムを考察し,文書を半分に折り畳むことで折りたたみ可能な画像に特化して開発したUnfolderを提案する。
アンフォルダは、文書画像の投影歪みに対して堅牢であり、修正後のクレーゼ近傍の画像を断片化しない。
新しいFolded Document Imagesデータセットは、折り畳まれた(2, 3, 4, 8 folds)ドキュメントの修正精度を調べるために作成された。
データセットには、テーブルに文書を置き、手元に保持した時にキャプチャされた1600の画像が含まれている。
unfolderアルゴリズムは、高度なニューラルネットワークメソッドであるdoctr (0.44) やdewarpnet (0.57) よりも優れた認識エラー率 0.33 を許容する。
Unfolderのランタイムの平均はiPhone XRで0.25s/imageしかなかった。
関連論文リスト
- DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z) - Source Printer Identification from Document Images Acquired using
Smartphone [14.889347839830092]
我々は,文字画像とプリンタ固有のノイズ残差の融合から,単一のCNNモデルを学習することを提案する。
提案手法は,5x2クロスバリデーション手法を用いて,文字「e」の画像を用いた98.42%の文書分類精度を実現する。
論文 参考訳(メタデータ) (2020-03-27T18:59:32Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。