論文の概要: UDBNET: Unsupervised Document Binarization Network via Adversarial Game
- arxiv url: http://arxiv.org/abs/2007.07075v2
- Date: Tue, 27 Oct 2020 09:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:01:12.579453
- Title: UDBNET: Unsupervised Document Binarization Network via Adversarial Game
- Title(参考訳): UDBNET: 敵ゲームによる教師なしドキュメントバイナリ化ネットワーク
- Authors: Amandeep Kumar, Shuvozit Ghose, Pinaki Nath Chowdhury, Partha Pratim
Roy, Umapada Pal
- Abstract要約: 本稿では,3人プレイヤ min-max 対角ゲームを導入し,文書画像のバイナライゼーションに向けた新しいアプローチを提案する。
提案手法では,まずクリーンな画像上に,劣化した参照画像のテクスチャを重畳する。
クリーンな画像と生成された劣化したバージョンは、unsupervised Document Binarization Network (UDBNet) のトレーニングに使用される擬似ペアデータを構成する。
- 参考スコア(独自算出の注目度): 26.60652038277151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Degraded document image binarization is one of the most challenging tasks in
the domain of document image analysis. In this paper, we present a novel
approach towards document image binarization by introducing three-player
min-max adversarial game. We train the network in an unsupervised setup by
assuming that we do not have any paired-training data. In our approach, an
Adversarial Texture Augmentation Network (ATANet) first superimposes the
texture of a degraded reference image over a clean image. Later, the clean
image along with its generated degraded version constitute the pseudo
paired-data which is used to train the Unsupervised Document Binarization
Network (UDBNet). Following this approach, we have enlarged the document
binarization datasets as it generates multiple images having same content
feature but different textual feature. These generated noisy images are then
fed into the UDBNet to get back the clean version. The joint discriminator
which is the third-player of our three-player min-max adversarial game tries to
couple both the ATANet and UDBNet. The three-player min-max adversarial game
stops, when the distributions modelled by the ATANet and the UDBNet align to
the same joint distribution over time. Thus, the joint discriminator enforces
the UDBNet to perform better on real degraded image. The experimental results
indicate the superior performance of the proposed model over existing
state-of-the-art algorithm on widely used DIBCO datasets. The source code of
the proposed system is publicly available at
https://github.com/VIROBO-15/UDBNET.
- Abstract(参考訳): 劣化した文書画像バイナリ化は、文書画像分析の領域で最も難しいタスクの1つです。
本稿では,3-player min-max 対角ゲームを導入し,文書画像のバイナライゼーションに向けた新しいアプローチを提案する。
ペアトレーニングデータがないと仮定して、教師なしのセットアップでネットワークをトレーニングします。
このアプローチでは、逆テクスチャ拡張ネットワーク(atanet)が、まず、劣化した参照画像のテクスチャをクリーンイメージに重畳する。
その後、クリーンな画像と生成された劣化したバージョンは、unsupervised Document Binarization Network (UDBNet) のトレーニングに使用される擬似ペアデータを構成する。
提案手法では,文書のビナライゼーションデータセットを拡大し,同一のコンテンツ特徴を持つ複数の画像を生成するが,テキストの特徴は異なる。
生成されたノイズ画像は、クリーンバージョンを取り戻すためにudbnetに送信される。
三人組のmin-max対戦ゲームの第3プレイヤーであるジョイントディミネーターはATANetとUDBNetの両者を組み合おうとする。
ATANetとUDBNetでモデル化された分布が時間とともに同じジョイント分布に整合すると、3人プレイヤのmin-max対戦ゲームは停止する。
このようにして、合同判別器はUDBNetを強制して、実際の劣化画像に対してより良い処理を行う。
実験結果は,広く使用されているDIBCOデータセット上で,既存の最先端アルゴリズムよりも提案モデルの方が優れた性能を示す。
提案システムのソースコードはhttps://github.com/VIROBO-15/UDBNET.comで公開されている。
関連論文リスト
- Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - UVDoc: Neural Grid-based Document Unwarping [20.51368640747448]
カジュアルな写真から印刷された文書のオリジナルの平らな外観を復元することは日常的な問題である。
グリッドベースの単一画像文書のアンウォープのための新しい手法を提案する。
本手法は,完全畳み込み型ディープニューラルネットワークを用いて幾何歪み補正を行う。
論文 参考訳(メタデータ) (2023-02-06T15:53:34Z) - Learning Weighting Map for Bit-Depth Expansion within a Rational Range [64.15915577164894]
ビット深化(BDE)は、低ビット深化(LBD)ソースから高ビット深化(HBD)画像を表示する新興技術の1つである。
既存のBDEメソッドは、様々なBDE状況に対して統一的なソリューションを持っていない。
我々は,各画素の重みを求めるためにビット復元ネットワーク(BRNet)を設計し,補充値の比率を合理的範囲内で示す。
論文 参考訳(メタデータ) (2022-04-26T02:27:39Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - The Forchheim Image Database for Camera Identification in the Wild [10.091921099426294]
Forchheim Image Database (FODB)は、27台のスマートフォンカメラで143シーンの23,000枚以上の画像で構成されている。
各画像は、オリジナルのカメラネイティブバージョンと、ソーシャルネットワークから5つのコピーの6つの異なる品質で提供される。
汎用EfficientNetは、クリーン画像と圧縮画像の両方で、いくつかの専門のCNNを著しく上回っている。
論文 参考訳(メタデータ) (2020-11-04T11:54:54Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z) - Generate High Resolution Images With Generative Variational Autoencoder [0.0]
本稿では,高解像度画像を生成する新しいニューラルネットワークを提案する。
エンコーダをそのまま使用しながら,VAEのデコーダを識別器に置き換える。
我々は、MNIST、LSUN、CelebAの3つの異なるデータセットでネットワークを評価した。
論文 参考訳(メタデータ) (2020-08-12T20:15:34Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。