論文の概要: Geometric Rectification of Creased Document Images based on Isometric
Mapping
- arxiv url: http://arxiv.org/abs/2212.08365v1
- Date: Fri, 16 Dec 2022 09:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 16:04:40.651005
- Title: Geometric Rectification of Creased Document Images based on Isometric
Mapping
- Title(参考訳): 等尺写像に基づく文書画像の幾何学的整形
- Authors: Dong Luo and Pengbo Bo
- Abstract要約: 歪んだ文書の画像の幾何学的補正は、文書のデジタル化と光学文字認識(OCR)における幅広い応用を見出す
本稿では,3次元文書モデルと平面における平滑化を表現するために,計算等尺写像モデルを用いた文書画像補正の一般的な枠組みを提案する。
提案手法の有効性と性能を実証し,本手法との比較を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric rectification of images of distorted documents finds wide
applications in document digitization and Optical Character Recognition (OCR).
Although smoothly curved deformations have been widely investigated by many
works, the most challenging distortions, e.g. complex creases and large
foldings, have not been studied in particular. The performance of existing
approaches, when applied to largely creased or folded documents, is far from
satisfying, leaving substantial room for improvement. To tackle this task,
knowledge about document rectification should be incorporated into the
computation, among which the developability of 3D document models and
particular textural features in the images, such as straight lines, are the
most essential ones. For this purpose, we propose a general framework of
document image rectification in which a computational isometric mapping model
is utilized for expressing a 3D document model and its flattening in the plane.
Based on this framework, both model developability and textural features are
considered in the computation. The experiments and comparisons to the
state-of-the-art approaches demonstrated the effectiveness and outstanding
performance of the proposed method. Our method is also flexible in that the
rectification results can be enhanced by any other methods that extract
high-quality feature lines in the images.
- Abstract(参考訳): 歪んだ文書の画像の幾何学的補正は、文書のデジタル化と光学文字認識(OCR)に広く応用されている。
滑らかに曲がった変形は多くの作品で広く研究されているが、特に複雑な折り目や大きな折りたたみなどの最も難しい歪みは研究されていない。
広く折り畳まれた文書に適用された既存のアプローチのパフォーマンスは満足には程遠いため、改善の余地は残されている。
この課題に取り組むために、3次元文書モデルの開発可能性や、直線などの画像中の特定のテクスチャの特徴を最も重要視する計算に、文書の修正に関する知識を組み込む必要がある。
本研究では,3次元文書モデルとその平面における平坦性を表現するために,計算等尺写像モデルを用いた文書画像修正の汎用的枠組みを提案する。
このフレームワークに基づき、モデル展開性とテキストの特徴の両方が計算において考慮される。
実験と最新手法との比較により,提案手法の有効性と性能が実証された。
また,画像中の高品質な特徴線を抽出する他の手法により,整流結果の強化も可能である。
関連論文リスト
- Embedded Shape Matching in Photogrammetry Data for Modeling Making
Knowledge [0.0]
投影法により得られた2次元サンプルを用いて3次元モデルにおけるパターン認識の難しさを克服する。
このアプリケーションは、ゼウグマモザイクのいくつかの例とセルジューク時代のレンガ壁の3次元デジタルモデリングに基づく。
論文 参考訳(メタデータ) (2023-12-20T23:52:53Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - Geometric Processing for Image-based 3D Object Modeling [2.6397379133308214]
本稿では,幾何処理の3つの主要構成要素の最先端手法について紹介する:(1)ジオレファレンス; 2)画像密度マッチング3)テクスチャマッピング。
3Dオブジェクト再構成ワークフローにおける画像の大部分が自動化された幾何処理は、現実的な3Dモデリングの重要な部分となっている。
論文 参考訳(メタデータ) (2021-06-27T18:33:30Z) - Translational Symmetry-Aware Facade Parsing for 3D Building
Reconstruction [11.263458202880038]
本稿では,深部ニューラルネットワーク改善のための新しい翻訳対称性に基づくアプローチを提案する。
本研究では,単一段ネットワークにおけるアンカーフリー検出を融合させる新しい手法を提案する。
我々はBlenderのような市販のレンダリングエンジンを使用して、手続きモデルを用いて現実的な高品質な3Dモデルを再構築する。
論文 参考訳(メタデータ) (2021-06-02T03:10:51Z) - Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network [30.18238229156996]
完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-04-14T12:32:36Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。