論文の概要: Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints
under Polar Representation
- arxiv url: http://arxiv.org/abs/2312.07925v1
- Date: Wed, 13 Dec 2023 06:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:37:10.319405
- Title: Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints
under Polar Representation
- Title(参考訳): polar-doc: 極性表現下でのマルチスコープ制約付き一段階文書の変形
- Authors: Weiguang Zhang, Qiufeng Wang, Kaizhu Huang
- Abstract要約: 文書デワープは、テキスト認識の恩恵を受けるために、写真化された文書の幾何学的変形を排除することを目的としている。
本研究では,文書デワープにおける各点の極座標表現,すなわちPolar-Docについて検討する。
グリッドベース正規化として制御点間の関係を制約する新しいマルチスコープポラリド-IOU損失を提案する。
- 参考スコア(独自算出の注目度): 26.050987382098107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document dewarping, aiming to eliminate geometric deformation in photographed
documents to benefit text recognition, has made great progress in recent years
but is still far from being solved. While Cartesian coordinates are typically
leveraged by state-of-the-art approaches to learn a group of deformation
control points, such representation is not efficient for dewarping model to
learn the deformation information. In this work, we explore Polar coordinates
representation for each point in document dewarping, namely Polar-Doc. In
contrast to most current works adopting a two-stage pipeline typically, Polar
representation enables a unified point regression framework for both
segmentation and dewarping network in one single stage. Such unification makes
the whole model more efficient to learn under an end-to-end optimization
pipeline, and also obtains a compact representation. Furthermore, we propose a
novel multi-scope Polar-Doc-IOU loss to constrain the relationship among
control points as a grid-based regularization under the Polar representation.
Visual comparisons and quantitative experiments on two benchmarks show that,
with much fewer parameters than the other mainstream counterparts, our
one-stage model with multi-scope constraints achieves new state-of-the-art
performance on both pixel alignment metrics and OCR metrics. Source codes will
be available at \url{*****}.
- Abstract(参考訳): テキスト認識のために写真文書の幾何学的変形を排除しようとする文書デワープは近年大きく進歩しているが,解決には程遠い。
デカルト座標は、典型的には変形制御点のグループを学ぶための最先端のアプローチによって利用されるが、そのような表現は変形情報を学習するための変形モデルにとって効率的ではない。
本研究では,文書デワープにおける各点の極座標表現,すなわちPolar-Docについて検討する。
2段階パイプラインを採用する現在のほとんどの作業とは対照的に、Polar表現は1つのステージでセグメンテーションとデウォープネットワークの両方に統一されたポイント回帰フレームワークを可能にする。
このような統一により、モデル全体がエンドツーエンドの最適化パイプラインで学習しやすくなり、コンパクトな表現も得られる。
さらに、制御点間の関係を極性表現に基づくグリッドベース正規化として制約する、新しいマルチスコープポラリド-IOU損失を提案する。
2つのベンチマークにおける視覚的比較と定量的実験により、マルチスコープ制約のあるワンステージモデルでは、ピクセルアライメントメトリクスとocrメトリクスの両方において、新たな最先端のパフォーマンスを実現しています。
ソースコードは \url{*****} で入手できる。
関連論文リスト
- PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers [7.4774909520731425]
自己教師型DINOv2 ViTのような事前学習型トランスフォーマーベース視覚モデルにより制約緩和が可能となることを示す。
特に、任意の大きさの複数の接続されたコンポーネントを利用できる全変動(TV)が、以前の作業よりも大幅に優れていたことが判明した。
論文 参考訳(メタデータ) (2024-07-05T14:24:37Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - PARTNER: Level up the Polar Representation for LiDAR 3D Object Detection [81.16859686137435]
本稿では、極座標における新しい3次元物体検出器Partnerを紹介する。
提案手法は,ONCE検証セットにおいて3.68%,9.15%の差で従来の極性理論よりも優れていた。
論文 参考訳(メタデータ) (2023-08-08T01:59:20Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - PolarMask++: Enhanced Polar Representation for Single-Shot Instance
Segmentation and Beyond [47.518550130850755]
PolarMaskは、極座標内のオブジェクトの輪郭を予測するものとしてインスタンス分割問題を再構成する。
2つのモジュールは慎重に設計されている。
サンプル良質の中心の例への柔らかい極の中心および極性IoUの損失)。
PolarMaskは完全に畳み込み型であり、ほとんどのオフザシェルフ検出方法に簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-05-05T16:55:53Z) - Community Detection in General Hypergraph via Graph Embedding [1.4213973379473654]
本研究では,一般のハイパーグラフネットワーク,均一あるいは非均一なコミュニティ構造を検出する新しい方法を提案する。
提案手法では,非一様ハイパーグラフを均一なマルチハイパーグラフに拡張するヌルを導入し,低次元ベクトル空間にマルチハイパーグラフを埋め込む。
論文 参考訳(メタデータ) (2021-03-28T03:23:03Z) - Learning multiview 3D point cloud registration [74.39499501822682]
本稿では,エンドツーエンドで学習可能なマルチビュー3Dポイントクラウド登録アルゴリズムを提案する。
このアプローチは、エンドツーエンドのトレーニングが可能で、計算コストが小さく、最先端のマージンよりも優れています。
論文 参考訳(メタデータ) (2020-01-15T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。