論文の概要: A Gated and Bifurcated Stacked U-Net Module for Document Image Dewarping
- arxiv url: http://arxiv.org/abs/2007.09824v1
- Date: Mon, 20 Jul 2020 01:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:40:00.161725
- Title: A Gated and Bifurcated Stacked U-Net Module for Document Image Dewarping
- Title(参考訳): 文書画像デワープのための拡張および分岐型スタックドU-Netモジュール
- Authors: Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, Mita Nasipuri
- Abstract要約: 教師付きGated and Bifurcated Stacked U-Netモジュールを提案し、デワープグリッドを予測し、入力から歪みのない画像を生成する。
我々の手法の新規性は、グリッド座標の混在を排除するためにU-Netの分岐部に存在するだけでなく、モデルに境界やその他の分線レベルを付加するゲートネットワークの利用にも有効である。
- 参考スコア(独自算出の注目度): 20.591737450565855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capturing images of documents is one of the easiest and most used methods of
recording them. These images however, being captured with the help of handheld
devices, often lead to undesirable distortions that are hard to remove. We
propose a supervised Gated and Bifurcated Stacked U-Net module to predict a
dewarping grid and create a distortion free image from the input. While the
network is trained on synthetically warped document images, results are
calculated on the basis of real world images. The novelty in our methods exists
not only in a bifurcation of the U-Net to help eliminate the intermingling of
the grid coordinates, but also in the use of a gated network which adds
boundary and other minute line level details to the model. The end-to-end
pipeline proposed by us achieves state-of-the-art performance on the DocUNet
dataset after being trained on just 8 percent of the data used in previous
methods.
- Abstract(参考訳): ドキュメントのイメージをキャプチャすることは、記録する最も簡単で最もよく使われる方法の1つです。
しかし、これらの画像はハンドヘルドデバイスの助けを借りて撮影され、しばしば取り外すのが困難な歪みを引き起こす。
本稿では,分岐格子を予測し,入力から歪みのない画像を生成するための教師付きゲート型および分岐型スタック型u-netモジュールを提案する。
ネットワークは合成された文書画像に基づいて訓練されているが、結果は実世界画像に基づいて計算される。
我々の手法の新規性は、グリッド座標の混在を排除するためにU-Netの分岐部に存在するだけでなく、モデルに境界やその他の分線レベルを付加するゲートネットワークの利用にも有効である。
我々の提案したエンドツーエンドパイプラインは、DocUNetデータセット上で、以前の方法で使用されるデータのわずか8%でトレーニングされた後に、最先端のパフォーマンスを達成する。
関連論文リスト
- Block and Detail: Scaffolding Sketch-to-Image Generation [65.56590359051634]
アーティストの反復的な洗練プロセスと整合する新しいスケッチ・ツー・イメージ・ツールを提案する。
私たちのツールは、ブロックされたストロークをスケッチして、オブジェクトの配置や形を粗く表現し、詳細なストロークを表現して、形やシルエットを洗練します。
反復過程の任意の点において、そのようなスケッチから高忠実度画像を生成するための2パスアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-28T07:09:31Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - UVDoc: Neural Grid-based Document Unwarping [20.51368640747448]
カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。
本手法は,完全畳み込み型ディープニューラルネットワークを用いて幾何歪み補正を行う。
論文 参考訳(メタデータ) (2023-02-06T15:53:34Z) - SISL:Self-Supervised Image Signature Learning for Splicing Detection and
Localization [11.437760125881049]
画像の周波数変換からスプライシング検出/局所化モデルを訓練するための自己教師型アプローチを提案する。
提案したモデルでは,ラベルやメタデータを使わずに,標準データセット上で同様のあるいはより良いパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-15T12:26:29Z) - Inverse Problems Leveraging Pre-trained Contrastive Representations [88.70821497369785]
破損したデータの表現を復元するための新しい逆問題群について検討する。
コントラスト目的を用いた教師付きインバージョン手法を提案する。
提案手法は,幅広いフォワード演算子においてラベル付きデータのごく一部であっても,エンド・ツー・エンドのベースラインよりも優れる。
論文 参考訳(メタデータ) (2021-10-14T15:06:30Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - Wavelet-Based Dual-Branch Network for Image Demoireing [148.91145614517015]
画像復調のための空間的注意機構を備えたウェーブレットベースのデュアルブランチネットワーク(WDNet)を設計する。
我々のネットワークはウェーブレット領域のモアレパターンを除去し、モアレパターンの周波数を画像の内容から分離する。
さらに,本手法の有効性を実証し,WDNetが非スクリーン画像上のモアレアーティファクトの除去を一般化することを示す。
論文 参考訳(メタデータ) (2020-07-14T16:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。