論文の概要: DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model
- arxiv url: http://arxiv.org/abs/2505.21975v1
- Date: Wed, 28 May 2025 05:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.420729
- Title: DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model
- Title(参考訳): DvD:コーディネートに基づく拡散モデルによる文書デウォープのための生成パラダイムの公開
- Authors: Weiguang Zhang, Huangcheng Lu, Maizhen Ning, Xiaowei Huang, Wei Wang, Kaizhu Huang, Qiufeng Wang,
- Abstract要約: ドキュメンテーションデワープは、写真文書画像の変形を補正することを目的としており、テキストの可読性を向上させる。
我々はtextbfDiffusion フレームワークを用いて textbfDewarping textbf に取り組むための最初の生成モデル DvD を提案する。
- 参考スコア(独自算出の注目度): 25.504170988714783
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document dewarping aims to rectify deformations in photographic document images, thus improving text readability, which has attracted much attention and made great progress, but it is still challenging to preserve document structures. Given recent advances in diffusion models, it is natural for us to consider their potential applicability to document dewarping. However, it is far from straightforward to adopt diffusion models in document dewarping due to their unfaithful control on highly complex document images (e.g., 2000$\times$3000 resolution). In this paper, we propose DvD, the first generative model to tackle document \textbf{D}ewarping \textbf{v}ia a \textbf{D}iffusion framework. To be specific, DvD introduces a coordinate-level denoising instead of typical pixel-level denoising, generating a mapping for deformation rectification. In addition, we further propose a time-variant condition refinement mechanism to enhance the preservation of document structures. In experiments, we find that current document dewarping benchmarks can not evaluate dewarping models comprehensively. To this end, we present AnyPhotoDoc6300, a rigorously designed large-scale document dewarping benchmark comprising 6,300 real image pairs across three distinct domains, enabling fine-grained evaluation of dewarping models. Comprehensive experiments demonstrate that our proposed DvD can achieve state-of-the-art performance with acceptable computational efficiency on multiple metrics across various benchmarks including DocUNet, DIR300, and AnyPhotoDoc6300. The new benchmark and code will be publicly available.
- Abstract(参考訳): ドキュメンテーション・デウォープは,写真用文書画像の変形を補正し,テキストの可読性を向上させることを目的としている。
近年の拡散モデルの発展を考えると、ドキュメンテーション・デウォープの可能性を考えることは自然である。
しかし、高度に複雑な文書画像(例えば、2000$\times$3000の解像度)に対する不誠実な制御のため、文書デワープにおいて拡散モデルを採用することは、決して容易ではない。
本稿では,文書の<textbf{D}ewarping \textbf{v}ia a \textbf{D}iffusion frameworkに取り組むための最初の生成モデルであるDvDを提案する。
具体的に言うと、DvDは典型的なピクセルレベルのデノナイジングの代わりに座標レベルのデノナイジングを導入し、変形補正のためのマッピングを生成する。
また,文書構造の保存性を高めるための時間変化条件改善機構についても提案する。
実験では、現在の文書デワープベンチマークでは、デワープモデルを包括的に評価できないことがわかった。
この目的のために,AnyPhotoDoc6300を提案する。AnyPhotoDoc6300は,3つの領域にまたがる6,300個の実画像からなる大規模文書デワープベンチマークであり,デワープモデルのきめ細かい評価を可能にする。
総合的な実験により,提案したDvDはDocUNet,DIR300,AnyPhotoDoc6300など,複数のベンチマークで計算効率を許容し,最先端の性能を達成できることが示された。
新しいベンチマークとコードは公開される予定だ。
関連論文リスト
- DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。
本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。
また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文 参考訳(メタデータ) (2023-11-16T07:16:02Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Geometric Rectification of Creased Document Images based on Isometric
Mapping [0.0]
歪んだ文書の画像の幾何学的補正は、文書のデジタル化と光学文字認識(OCR)における幅広い応用を見出す
本稿では,3次元文書モデルと平面における平滑化を表現するために,計算等尺写像モデルを用いた文書画像補正の一般的な枠組みを提案する。
提案手法の有効性と性能を実証し,本手法との比較を行った。
論文 参考訳(メタデータ) (2022-12-16T09:33:31Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。