論文の概要: Revisiting Document Image Dewarping by Grid Regularization
- arxiv url: http://arxiv.org/abs/2203.16850v1
- Date: Thu, 31 Mar 2022 07:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-10 11:14:00.951669
- Title: Revisiting Document Image Dewarping by Grid Regularization
- Title(参考訳): グリッド正規化による文書画像のデワープ再検討
- Authors: Xiangwei Jiang, Rujiao Long, Nan Xue, Zhibo Yang, Cong Yao, Gui-Song
Xia
- Abstract要約: 本稿では,文書画像のデウォープの問題に対処する。
制約のある最適化の観点から、テキスト行とドキュメント境界を考慮に入れます。
提案手法は,テキスト行の境界点と画素をまず学習する。
- 参考スコア(独自算出の注目度): 41.87305384805975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of document image dewarping, which aims at
eliminating the geometric distortion in document images for document
digitization. Instead of designing a better neural network to approximate the
optical flow fields between the inputs and outputs, we pursue the best
readability by taking the text lines and the document boundaries into account
from a constrained optimization perspective. Specifically, our proposed method
first learns the boundary points and the pixels in the text lines and then
follows the most simple observation that the boundaries and text lines in both
horizontal and vertical directions should be kept after dewarping to introduce
a novel grid regularization scheme. To obtain the final forward mapping for
dewarping, we solve an optimization problem with our proposed grid
regularization. The experiments comprehensively demonstrate that our proposed
approach outperforms the prior arts by large margins in terms of readability
(with the metrics of Character Errors Rate and the Edit Distance) while
maintaining the best image quality on the publicly-available DocUNet benchmark.
- Abstract(参考訳): 本稿では,文書デジタル化のための文書画像の幾何学的歪みを取り除くことを目的とした文書画像デワープの問題に対処する。
入力と出力の間の光学的流れ場を近似する優れたニューラルネットワークを設計する代わりに、制約のある最適化の観点からテキスト線と文書境界を考慮に入れ、最良の可読性を追求する。
特に,提案手法では,まずテキストラインの境界点と画素を学習し,次に水平方向と垂直方向の境界線とテキスト線をデワープ後に保持し,新しいグリッド正規化方式を導入するという最も単純な観察を行う。
デワーピングのための最終フォワードマッピングを得るため,提案するグリッド正則化による最適化問題を解く。
提案手法は,利用可能なDocUNetベンチマーク上で最高の画質を維持しつつ,読みやすさ(キャラクタエラー率と編集距離の測定値)において先行技術よりも優れた性能を示すことを示す。
関連論文リスト
- Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z) - Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network [30.18238229156996]
完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-04-14T12:32:36Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。
本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-08-14T22:48:36Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z) - Coarse-to-Fine Gaze Redirection with Numerical and Pictorial Guidance [74.27389895574422]
本稿では,数値誘導と画像誘導の両方を利用した新しい視線リダイレクトフレームワークを提案する。
提案手法は,画像品質とリダイレクト精度の両方の観点から,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-07T01:17:27Z) - Multistage Curvilinear Coordinate Transform Based Document Image
Dewarping using a Novel Quality Estimator [11.342730352935913]
本研究は,非線形に歪んだ文書画像のデウォープを高速化し,改良した手法を示す。
画像は、カービ線形ホモグラフィーを用いて最適逆投影を推定することにより、まずページレベルでデワープされる。
プロセスの品質は、テキスト行とリチリニアオブジェクトの特性に関連する一連のメトリクスを評価することによって推定される。
品質が不満足であると推定された場合、ページレベルのデウォーププロセスはより微細な近似で繰り返される。
これに続いて行レベルのデワープ処理が行われ、個々のテキスト行でワープを細かく修正する。
論文 参考訳(メタデータ) (2020-03-15T17:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。