論文の概要: Marior: Margin Removal and Iterative Content Rectification for Document
Dewarping in the Wild
- arxiv url: http://arxiv.org/abs/2207.11515v1
- Date: Sat, 23 Jul 2022 13:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:30:09.426880
- Title: Marior: Margin Removal and Iterative Content Rectification for Document
Dewarping in the Wild
- Title(参考訳): Marior: 野生のドキュメントのデワープのためのマージン除去と反復的コンテンツ修正
- Authors: Jiaxin Zhang, Canjie Luo, Lianwen Jin, Fengjun Guo, Kai Ding
- Abstract要約: 最近の学習ベース手法は、正確に収集された文書画像に集中的に焦点をあてている。
しかし、これは大きな限界領域を持つ文書画像など、現実的な課題を克服するのに十分ではないかもしれない。
粗大な仕上がりで復調品質と可読性を反復的に改善するMariorを提案する。
- 参考スコア(独自算出の注目度): 32.38351744620441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-captured document images usually suffer from perspective and geometric
deformations. It is of great value to rectify them when considering poor visual
aesthetics and the deteriorated performance of OCR systems. Recent
learning-based methods intensively focus on the accurately cropped document
image. However, this might not be sufficient for overcoming practical
challenges, including document images either with large marginal regions or
without margins. Due to this impracticality, users struggle to crop documents
precisely when they encounter large marginal regions. Simultaneously, dewarping
images without margins is still an insurmountable problem. To the best of our
knowledge, there is still no complete and effective pipeline for rectifying
document images in the wild. To address this issue, we propose a novel approach
called Marior (Margin Removal and \Iterative Content Rectification). Marior
follows a progressive strategy to iteratively improve the dewarping quality and
readability in a coarse-to-fine manner. Specifically, we divide the pipeline
into two modules: margin removal module (MRM) and iterative content
rectification module (ICRM). First, we predict the segmentation mask of the
input image to remove the margin, thereby obtaining a preliminary result. Then
we refine the image further by producing dense displacement flows to achieve
content-aware rectification. We determine the number of refinement iterations
adaptively. Experiments demonstrate the state-of-the-art performance of our
method on public benchmarks. The resources are available at
https://github.com/ZZZHANG-jx/Marior for further comparison.
- Abstract(参考訳): カメラキャプチャーされた文書画像は通常、視点と幾何学的変形に悩まされる。
視覚美学の貧弱さやOCRシステムの性能低下を考慮すると,それらを修正することが重要である。
最近の学習ベース手法では, 精度の高いクロッピング文書画像に着目している。
しかし、これは、大きな限界領域を持つか、マージンのない文書画像を含む、実用的な課題を克服するのに十分ではないかもしれない。
この非現実性のため、ユーザーは大きな限界領域に遭遇したとき、正確に文書の収集に苦労する。
同時に、マージンのない画像のデワーイングは依然として不可解な問題である。
私たちの知る限りでは、ドキュメントイメージを野放しで修正するための完全かつ効果的なパイプラインはまだありません。
この問題に対処するため,Marior (Margin removal and \Iterative Content Rectification) と呼ばれる新しい手法を提案する。
Marior氏はデワープの品質と可読性を粗い方法で反復的に改善するための進歩的な戦略に従っている。
具体的には、パイプラインをマージン除去モジュール(mrm)と反復コンテンツ整流モジュール(icrm)の2つのモジュールに分割する。
まず、入力画像のセグメンテーションマスクを予測してマージンを除去し、予備結果を得る。
次に,高密度変位流を発生させることにより画像をさらに洗練し,コンテンツ認識補正を実現する。
改良イテレーションの数を適応的に決定する。
提案手法の最先端性能を公開ベンチマークで実証した。
リソースはhttps://github.com/zzzhang-jx/mariorで入手できる。
関連論文リスト
- RecDiffusion: Rectangling for Image Stitching with Diffusion Models [53.824503710254206]
画像縫合整形のための新しい拡散学習フレームワーク textbfRecDiffusion を提案する。
このフレームワークは運動拡散モデル(MDM)を組み合わせて運動場を生成し、縫合された画像の不規則な境界から幾何学的に修正された中間体へ効果的に遷移する。
論文 参考訳(メタデータ) (2024-03-28T06:22:45Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Noisy Boundaries: Lemon or Lemonade for Semi-supervised Instance
Segmentation? [59.25833574373718]
ピクセルレベルの擬似ラベルを割り当てることで、半教師付きインスタンスセグメンテーションのためのフレームワークを構築する。
この枠組みでは、擬似ラベルに関連付けられたノイズ境界が二重辺になっていることを指摘した。
我々はそれらを同時に活用し、抵抗することを提案する。
論文 参考訳(メタデータ) (2022-03-25T03:06:24Z) - MISF: Multi-level Interactive Siamese Filtering for High-Fidelity Image
Inpainting [35.79101039727397]
画像インペイントにおける画像レベルの予測フィルタリングの利点と課題について検討する。
カーネル予測分岐(KPB)とセマンティック・アンド・イメージ・フィルタリング分岐(SIFB)の2つの分岐を含む,MISF(Multilevel Interactive Siamese Filtering)と呼ばれる新しいフィルタリング手法を提案する。
提案手法は,4つの指標,すなわちL1,PSNR,SSIM,LPIPSにおいて,最先端のベースラインよりも優れる。
論文 参考訳(メタデータ) (2022-03-12T01:32:39Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z) - High-Resolution Image Inpainting with Iterative Confidence Feedback and
Guided Upsampling [122.06593036862611]
既存の画像塗装法は、実アプリケーションで大きな穴を扱う際に、しばしばアーティファクトを生成する。
本稿では,フィードバック機構を備えた反復インペイント手法を提案する。
実験により,本手法は定量評価と定性評価の両方において既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-05-24T13:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。