論文の概要: Geometric Representation Learning for Document Image Rectification
- arxiv url: http://arxiv.org/abs/2210.08161v1
- Date: Sat, 15 Oct 2022 01:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:01:20.121362
- Title: Geometric Representation Learning for Document Image Rectification
- Title(参考訳): 文書画像修正のための幾何表現学習
- Authors: Hao Feng, Wengang Zhou, Jiajun Deng, Yuechen Wang and Houqiang Li
- Abstract要約: 本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 137.75133384124976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In document image rectification, there exist rich geometric constraints
between the distorted image and the ground truth one. However, such geometric
constraints are largely ignored in existing advanced solutions, which limits
the rectification performance. To this end, we present DocGeoNet for document
image rectification by introducing explicit geometric representation.
Technically, two typical attributes of the document image are involved in the
proposed geometric representation learning, i.e., 3D shape and textlines. Our
motivation arises from the insight that 3D shape provides global unwarping cues
for rectifying a distorted document image while overlooking the local
structure. On the other hand, textlines complementarily provide explicit
geometric constraints for local patterns. The learned geometric representation
effectively bridges the distorted image and the ground truth one. Extensive
experiments show the effectiveness of our framework and demonstrate the
superiority of our DocGeoNet over state-of-the-art methods on both the DocUNet
Benchmark dataset and our proposed DIR300 test set. The code is available at
https://github.com/fh2019ustc/DocGeoNet.
- Abstract(参考訳): 文書画像の補正では、歪んだ画像と基底真理の間にはリッチな幾何学的制約が存在する。
しかし、そのような幾何的制約は、修正性能を制限する既存の高度な解では無視される。
この目的のために、明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
技術的には、文書画像の典型的な2つの属性が、提案した幾何学的表現学習、すなわち3次元形状とテキストラインに関与している。
私たちのモチベーションは、3次元形状が局所構造を見下ろしながら歪んだ文書画像の修正にグローバルなアンウォープ手段を提供するという洞察から生まれます。
一方、テキストラインは局所パターンに対する明示的な幾何学的制約を相補的に提供する。
学習された幾何学的表現は、歪んだ画像と地上の真実を効果的に橋渡しする。
我々のフレームワークの有効性を示し、DocUNetベンチマークデータセットと提案したDIR300テストセットの両方における最先端手法よりもDocGeoNetの方が優れていることを示す。
コードはhttps://github.com/fh2019ustc/DocGeoNetで入手できる。
関連論文リスト
- TPIE: Topology-Preserved Image Editing With Text Instructions [14.399084325078878]
テキストによるトポロジー保存画像編集(TPIE)
TPIEは、新しく生成されたサンプルを与えられた入力テンプレートの変形可能なバリエーションとして扱い、制御可能かつ構造保存可能な編集を可能にする。
TPIEを2次元画像と3次元画像の多種多様なセットで検証し,最新の画像編集手法と比較した。
論文 参考訳(メタデータ) (2024-11-22T22:08:27Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - UVDoc: Neural Grid-based Document Unwarping [20.51368640747448]
カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。
本手法は,完全畳み込み型ディープニューラルネットワークを用いて幾何歪み補正を行う。
論文 参考訳(メタデータ) (2023-02-06T15:53:34Z) - Geometric Rectification of Creased Document Images based on Isometric
Mapping [0.0]
歪んだ文書の画像の幾何学的補正は、文書のデジタル化と光学文字認識(OCR)における幅広い応用を見出す
本稿では,3次元文書モデルと平面における平滑化を表現するために,計算等尺写像モデルを用いた文書画像補正の一般的な枠組みを提案する。
提案手法の有効性と性能を実証し,本手法との比較を行った。
論文 参考訳(メタデータ) (2022-12-16T09:33:31Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - Joint Deep Multi-Graph Matching and 3D Geometry Learning from
Inhomogeneous 2D Image Collections [57.60094385551773]
非均質な画像コレクションから変形可能な3Dジオメトリモデルを学ぶためのトレーニング可能なフレームワークを提案する。
さらに,2次元画像で表現された物体の3次元形状も取得する。
論文 参考訳(メタデータ) (2021-03-31T17:25:36Z) - TextRay: Contour-based Geometric Modeling for Arbitrary-shaped Scene
Text Detection [20.34326396800748]
本研究では,トップダウンの輪郭型幾何モデリングと幾何パラメータ学習を行う任意の形状のテキスト検出手法であるTextRayを提案する。
いくつかのベンチマークデータセットの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2020-08-11T16:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。