論文の概要: Cascaded Robust Rectification for Arbitrary Document Images
- arxiv url: http://arxiv.org/abs/2511.23150v1
- Date: Fri, 28 Nov 2025 12:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.897292
- Title: Cascaded Robust Rectification for Arbitrary Document Images
- Title(参考訳): 任意文書画像に対するカスケードロバスト整形術
- Authors: Chaoyun Wang, Quanxin Huang, I-Chao Shen, Takeo Igarashi, Nanning Zheng, Caigui Jiang,
- Abstract要約: 実世界のシナリオにおける文書の修正は、カメラの視点と物理的歪みの極端に異なるため、重大な課題となる。
本稿では,異なる歪みタイプを粗い方法で段階的に逆転する,新しい多段階フレームワークを提案する。
筆者らのフレームワークは,まずカメラの視点から発生する視線歪みを補正するためにグローバルアフィン変換を行い,次いで物理紙のカーリングや折り畳みによる幾何学的変形を補正し,最後に,コンテンツ認識反復処理を用いて微細なコンテンツ歪みを除去する。
- 参考スコア(独自算出の注目度): 45.30113042855903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document rectification in real-world scenarios poses significant challenges due to extreme variations in camera perspectives and physical distortions. Driven by the insight that complex transformations can be decomposed and resolved progressively, we introduce a novel multi-stage framework that progressively reverses distinct distortion types in a coarse-to-fine manner. Specifically, our framework first performs a global affine transformation to correct perspective distortions arising from the camera's viewpoint, then rectifies geometric deformations resulting from physical paper curling and folding, and finally employs a content-aware iterative process to eliminate fine-grained content distortions. To address limitations in existing evaluation protocols, we also propose two enhanced metrics: layout-aligned OCR metrics (AED/ACER) for a stable assessment that decouples geometric rectification quality from the layout analysis errors of OCR engines, and masked AD/AAD (AD-M/AAD-M) tailored for accurately evaluating geometric distortions in documents with incomplete boundaries. Extensive experiments show that our method establishes new state-of-the-art performance on multiple challenging benchmarks, yielding a substantial reduction of 14.1\%--34.7\% in the AAD metric and demonstrating superior efficacy in real-world applications. The code will be publicly available at https://github.com/chaoyunwang/ArbDR.
- Abstract(参考訳): 実世界のシナリオにおける文書の修正は、カメラの視点と物理的歪みの極端に異なるため、重大な課題となる。
複雑な変換が分解され、徐々に解決されるという知見に導かれて、我々は、異なる歪みタイプを粗い方法で段階的に逆転する、新しい多段階のフレームワークを導入する。
具体的には、まず、カメラの視点から生じる視線歪みを補正するグローバルアフィン変換を行い、次いで物理紙のカーリングや折り畳みによる幾何学的変形を補正し、最後にコンテンツ認識反復プロセスを用いて、微細なコンテンツ歪みを除去する。
既存の評価プロトコルの限界に対処するために,OCRエンジンのレイアウト解析誤差から幾何補正品質を分離する安定した評価のためのレイアウト整列OCRメトリクス (AED/ACER) と,不完全境界を持つ文書の幾何歪みを正確に評価するために調整されたAD/AAD (AD-M/AAD-M) の2つの拡張指標を提案する。
その結果,AAD測定値の14.1\%--34.7\%を大幅に削減し,実世界の応用において優れた有効性を示すことができた。
コードはhttps://github.com/chaoyunwang/ArbDRで公開されている。
関連論文リスト
- The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment [105.31858867473845]
ImageCriticはエージェントフレームワークに統合され、不整合を自動的に検出し、マルチラウンドおよびローカル編集で修正する。
実験では、ImageCriticは様々なカスタマイズされた生成シナリオで詳細に関連する問題を効果的に解決することができ、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-25T18:40:25Z) - Revisiting Reconstruction-based AI-generated Image Detection: A Geometric Perspective [50.83711509908479]
幾何学的観点からの再構成誤差に対するヤコビアンスペクトル下界の導入について述べる。
再構成多様体上の実画像は非自明な誤差下界を示し、多様体上の生成された画像はゼロに近い誤差を持つことを示す。
本稿では,構造化編集操作を活用することで動的再構成誤差を計算できるReGapを提案する。
論文 参考訳(メタデータ) (2025-10-29T03:45:03Z) - VGD: Visual Geometry Gaussian Splatting for Feed-Forward Surround-view Driving Reconstruction [26.668204454537246]
我々は,この課題に対処すべく,新しいフィードフォワードエンドツーエンド学習フレームワークであるtextbfVisual Gaussian Driving (VGD)を紹介した。
提案手法は, 客観的指標と主観的品質の両方において, 種々の条件下で, 最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-10-22T13:28:49Z) - Towards Size-invariant Salient Object Detection: A Generic Evaluation and Optimization Approach [118.75896764188424]
本稿では,既存の広範に使用されているSalient Object Detectionメトリクスの固有サイズ感度を明らかにするために,新しい視点を示す。
この課題に対処するため、汎用的なサイズ不変評価(SIEva)フレームワークが提案されている。
さらに、サイズ不変の原理に固執する専用最適化フレームワーク(SIOpt)を開発し、幅広いサイズにわたる有能な物体の検出を大幅に強化する。
論文 参考訳(メタデータ) (2025-09-19T04:12:14Z) - TADoc: Robust Time-Aware Document Image Dewarping [4.080803969466669]
デジタルエコノミーとオンラインワークの台頭により、文書画像のデウォープがますます重要になっている。
我々はこのタスクを再構築し、一連の中間状態を含む動的なプロセスとして初めてモデル化する。
文書画像の幾何学的歪みに対処するために,TADocと呼ばれる軽量なフレームワークを設計する。
論文 参考訳(メタデータ) (2025-08-09T13:55:55Z) - Axis-Aligned Document Dewarping [39.058312371271825]
我々は、幾何学的意味を取り入れ、人間の視覚知覚と整合する新しい計量AAD(Axis-Aligned Distortion)を導入する。
提案手法は,複数の既存ベンチマークでSOTA結果が得られ,AAD測定値が18.2%34.5%向上した。
論文 参考訳(メタデータ) (2025-07-20T15:12:57Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network [30.18238229156996]
完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-04-14T12:32:36Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。