論文の概要: Dual Dimensions Geometric Representation Learning Based Document Dewarping
- arxiv url: http://arxiv.org/abs/2507.08492v1
- Date: Fri, 11 Jul 2025 11:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.333901
- Title: Dual Dimensions Geometric Representation Learning Based Document Dewarping
- Title(参考訳): Dual Dimensions Geometric Representation Learning based Document Dewarping
- Authors: Heng Li, Qingcai Chen, Xiangping Wu,
- Abstract要約: ディープラーニング時代において、文書画像のデウォープは依然として困難な課題である。
文書水平-垂直線二重次元に着目した微粒な変形知覚モデルを提案する。
本手法は,最先端の手法と比較して精度の高い補正結果が得られる。
- 参考スコア(独自算出の注目度): 17.529651556361355
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document image dewarping remains a challenging task in the deep learning era. While existing methods have improved by leveraging text line awareness, they typically focus only on a single horizontal dimension. In this paper, we propose a fine-grained deformation perception model that focuses on Dual Dimensions of document horizontal-vertical-lines to improve document Dewarping called D2Dewarp. It can perceive distortion trends in different directions across document details. To combine the horizontal and vertical granularity features, an effective fusion module based on X and Y coordinate is designed to facilitate interaction and constraint between the two dimensions for feature complementarity. Due to the lack of annotated line features in current public dewarping datasets, we also propose an automatic fine-grained annotation method using public document texture images and an automatic rendering engine to build a new large-scale distortion training dataset. The code and dataset will be publicly released. On public Chinese and English benchmarks, both quantitative and qualitative results show that our method achieves better rectification results compared with the state-of-the-art methods. The dataset will be publicly available at https://github.com/xiaomore/DocDewarpHV
- Abstract(参考訳): ディープラーニング時代において、文書画像のデウォープは依然として困難な課題である。
既存の手法はテキスト行認識を利用して改善されているが、通常は1つの水平次元にのみ焦点をあてている。
本稿では,D2Dewarp と呼ばれる文書デワープを改善するために,文書の水平-垂直線二重次元に着目した微細変形知覚モデルを提案する。
文書の細部にわたって異なる方向の歪み傾向を知覚することができる。
水平および垂直の粒度特徴を組み合わせるために、XとY座標に基づく有効融合モジュールは、特徴相補性のための2次元間の相互作用と制約を容易にするように設計されている。
また,現在のパブリックデワープデータセットに注釈付きライン機能が欠如していることから,公文書テクスチャイメージと自動レンダリングエンジンを用いて,大規模歪み訓練データセットを構築するための詳細なアノテーション手法を提案する。
コードとデータセットは公開される。
公開中国語と英語のベンチマークでは、定量化と定性化の両方の結果から、我々の手法は最先端の手法と比較して精度が良いことが示されている。
データセットはhttps://github.com/xiaomore/DocDewarpHVで公開される。
関連論文リスト
- Axis-Aligned Document Dewarping [39.058312371271825]
我々は、幾何学的意味を取り入れ、人間の視覚知覚と整合する新しい計量AAD(Axis-Aligned Distortion)を導入する。
提案手法は,複数の既存ベンチマークでSOTA結果が得られ,AAD測定値が18.2%34.5%向上した。
論文 参考訳(メタデータ) (2025-07-20T15:12:57Z) - D2AF: A Dual-Driven Annotation and Filtering Framework for Visual Grounding [36.321156992727055]
D2AFは、入力画像のみを使用して視覚的な接地を行うための堅牢なアノテーションフレームワークである。
二重駆動型アノテーション戦略を実装することにより、詳細な領域テキストペアを効果的に生成する。
以上の結果から,データ量の増加がモデル性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-05-30T09:04:47Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - EIGEN: Expert-Informed Joint Learning Aggregation for High-Fidelity
Information Extraction from Document Images [27.36816896426097]
レイアウトフォーマットの多様性が高いため,文書画像からの情報抽出は困難である。
本稿では,ルールベースの手法とデータプログラミングを用いたディープラーニングモデルを組み合わせた新しい手法であるEIGENを提案する。
我々のEIGENフレームワークは、ラベル付きデータインスタンスがほとんどない状態で、最先端のディープモデルの性能を大幅に向上させることができることを実証的に示しています。
論文 参考訳(メタデータ) (2023-11-23T13:20:42Z) - Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - UVDoc: Neural Grid-based Document Unwarping [20.51368640747448]
カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。
本手法は,完全畳み込み型ディープニューラルネットワークを用いて幾何歪み補正を行う。
論文 参考訳(メタデータ) (2023-02-06T15:53:34Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Multistage Curvilinear Coordinate Transform Based Document Image
Dewarping using a Novel Quality Estimator [11.342730352935913]
本研究は,非線形に歪んだ文書画像のデウォープを高速化し,改良した手法を示す。
画像は、カービ線形ホモグラフィーを用いて最適逆投影を推定することにより、まずページレベルでデワープされる。
プロセスの品質は、テキスト行とリチリニアオブジェクトの特性に関連する一連のメトリクスを評価することによって推定される。
品質が不満足であると推定された場合、ページレベルのデウォーププロセスはより微細な近似で繰り返される。
これに続いて行レベルのデワープ処理が行われ、個々のテキスト行でワープを細かく修正する。
論文 参考訳(メタデータ) (2020-03-15T17:17:53Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。