論文の概要: Axis-Aligned Document Dewarping
- arxiv url: http://arxiv.org/abs/2507.15000v1
- Date: Sun, 20 Jul 2025 15:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.156578
- Title: Axis-Aligned Document Dewarping
- Title(参考訳): 軸アラインド文書のデワープ
- Authors: Chaoyun Wang, I-Chao Shen, Takeo Igarashi, Nanning Zheng, Caigui Jiang,
- Abstract要約: 我々は、幾何学的意味を取り入れ、人間の視覚知覚と整合する新しい計量AAD(Axis-Aligned Distortion)を導入する。
提案手法は,複数の既存ベンチマークでSOTA結果が得られ,AAD測定値が18.2%34.5%向上した。
- 参考スコア(独自算出の注目度): 39.058312371271825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document dewarping is crucial for many applications. However, existing learning-based methods primarily rely on supervised regression with annotated data without leveraging the inherent geometric properties in physical documents to the dewarping process. Our key insight is that a well-dewarped document is characterized by transforming distorted feature lines into axis-aligned ones. This property aligns with the inherent axis-aligned nature of the discrete grid geometry in planar documents. In the training phase, we propose an axis-aligned geometric constraint to enhance document dewarping. In the inference phase, we propose an axis alignment preprocessing strategy to reduce the dewarping difficulty. In the evaluation phase, we introduce a new metric, Axis-Aligned Distortion (AAD), that not only incorporates geometric meaning and aligns with human visual perception but also demonstrates greater robustness. As a result, our method achieves SOTA results on multiple existing benchmarks and achieves 18.2%~34.5% improvements on the AAD metric.
- Abstract(参考訳): ドキュメントのデウォープは多くのアプリケーションにとって不可欠です。
しかし、既存の学習ベースの手法は、物理的文書に固有の幾何学的性質を活用せずに、注釈付きデータによる教師付き回帰に依存している。
私たちのキーとなる洞察は、歪んだ特徴線を軸に整列した文書に変形させることによって、十分に遅延した文書が特徴づけられるということです。
この性質は、平面文書における離散格子幾何学の固有の軸整列の性質と一致している。
トレーニングフェーズでは、文書のデウォープを強化するために、軸方向の幾何的制約を提案する。
推論段階では、デウォープの難易度を低減するための軸アライメント前処理戦略を提案する。
評価フェーズでは、幾何学的意味を取り入れ、人間の視覚的知覚と整合するだけでなく、より強靭性を示す新しい計量AAD(Axis-Aligned Distortion)を導入する。
その結果,複数の既存ベンチマークでSOTA結果が得られ,AAD測定値が18.2%~34.5%向上した。
関連論文リスト
- Dual Dimensions Geometric Representation Learning Based Document Dewarping [17.529651556361355]
ディープラーニング時代において、文書画像のデウォープは依然として困難な課題である。
文書水平-垂直線二重次元に着目した微粒な変形知覚モデルを提案する。
本手法は,最先端の手法と比較して精度の高い補正結果が得られる。
論文 参考訳(メタデータ) (2025-07-11T11:16:58Z) - Reading a Ruler in the Wild [1.4785540163232234]
ピクセル計測を絶対的な実世界の次元に正確に変換することは、コンピュータビジョンにおける根本的な課題である。
RulerNetは“野生の”スケールを強く推論するディープラーニングフレームワークです。
実験によると、RetrorNetは現実世界の挑戦的な条件下で、正確で一貫性があり、効率的なスケール推定を提供する。
論文 参考訳(メタデータ) (2025-07-09T17:35:58Z) - CP$^2$: Leveraging Geometry for Conformal Prediction via Canonicalization [51.716834831684004]
幾何データシフトにおける共形予測(CP)の問題について検討する。
本稿では,幾何的ポーズなどの幾何学的情報を統合することを提案する。
論文 参考訳(メタデータ) (2025-06-19T10:12:02Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints
under Polar Representation [26.050987382098107]
文書デワープは、テキスト認識の恩恵を受けるために、写真化された文書の幾何学的変形を排除することを目的としている。
本研究では,文書デワープにおける各点の極座標表現,すなわちPolar-Docについて検討する。
グリッドベース正規化として制御点間の関係を制約する新しいマルチスコープポラリド-IOU損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T06:50:30Z) - Engineering the Neural Collapse Geometry of Supervised-Contrastive Loss [28.529476019629097]
Supervised-Contrastive Los (SCL) は、分類タスクのためのクロスエントロピー(CE)の代替品である。
コントラスト損失を補正することにより,学習した特徴埋め込みの幾何学を設計する手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T04:23:17Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Multistage Curvilinear Coordinate Transform Based Document Image
Dewarping using a Novel Quality Estimator [11.342730352935913]
本研究は,非線形に歪んだ文書画像のデウォープを高速化し,改良した手法を示す。
画像は、カービ線形ホモグラフィーを用いて最適逆投影を推定することにより、まずページレベルでデワープされる。
プロセスの品質は、テキスト行とリチリニアオブジェクトの特性に関連する一連のメトリクスを評価することによって推定される。
品質が不満足であると推定された場合、ページレベルのデウォーププロセスはより微細な近似で繰り返される。
これに続いて行レベルのデワープ処理が行われ、個々のテキスト行でワープを細かく修正する。
論文 参考訳(メタデータ) (2020-03-15T17:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。