論文の概要: Light-weight Document Image Cleanup using Perceptual Loss
- arxiv url: http://arxiv.org/abs/2105.09076v1
- Date: Wed, 19 May 2021 11:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:48:01.051677
- Title: Light-weight Document Image Cleanup using Perceptual Loss
- Title(参考訳): 知覚損失を用いた軽量文書画像のクリーンアップ
- Authors: Soumyadeep Dey, Pratik Jawanpuria
- Abstract要約: 文書画像からノイズ要素を除去する軽量エンコーダに基づく畳み込みニューラルネットワークアーキテクチャを提案する。
パラメータ数と製品サム操作では,既存の文書拡張モデルよりも65~1030倍,3~27倍小さい。
- 参考スコア(独自算出の注目度): 7.106986689736828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smartphones have enabled effortless capturing and sharing of documents in
digital form. The documents, however, often undergo various types of
degradation due to aging, stains, or shortcoming of capturing environment such
as shadow, non-uniform lighting, etc., which reduces the comprehensibility of
the document images. In this work, we consider the problem of document image
cleanup on embedded applications such as smartphone apps, which usually have
memory, energy, and latency limitations due to the device and/or for best human
user experience. We propose a light-weight encoder decoder based convolutional
neural network architecture for removing the noisy elements from document
images. To compensate for generalization performance with a low network
capacity, we incorporate the perceptual loss for knowledge transfer from
pre-trained deep CNN network in our loss function. In terms of the number of
parameters and product-sum operations, our models are 65-1030 and 3-27 times,
respectively, smaller than existing state-of-the-art document enhancement
models. Overall, the proposed models offer a favorable resource versus accuracy
trade-off and we empirically illustrate the efficacy of our approach on several
real-world benchmark datasets.
- Abstract(参考訳): スマートフォンは、デジタル形式で文書を記録・共有できる。
しかし、これらの文書は、影や一様でない照明などの捕獲環境の老朽化、汚れ、欠点などにより、様々な種類の劣化を招き、文書画像の理解性を低下させる。
本研究では,スマートフォンアプリケーションなどの組み込みアプリケーションにおいて,デバイスおよび/または最高のユーザエクスペリエンスのためにメモリ,エネルギ,レイテンシの制限のある画像クリーンアップを文書化する問題を考察する。
文書画像からノイズ要素を取り除くために,軽量エンコーダデコーダを用いた畳み込みニューラルネットワークアーキテクチャを提案する。
ネットワーク能力の低い一般化性能を補うため,事前学習した深層CNNネットワークからの知識伝達における知覚的損失を損失関数に組み込む。
パラメータ数と製品単位演算に関しては,65~1030倍と3~27倍であり,従来の文書拡張モデルよりも小さい。
全体として、提案モデルが好適なリソース対精度トレードオフを提供し、実世界のベンチマークデータセットに対するアプローチの有効性を実証的に説明します。
関連論文リスト
- Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models [51.3915762595891]
本稿では、デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。
提案手法はHollowed Netと呼ばれ,拡散U-Netのアーキテクチャを変更することにより,微調整時のメモリ効率を向上させる。
論文 参考訳(メタデータ) (2024-11-02T08:42:48Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z) - High-Resolution Document Shadow Removal via A Large-Scale Real-World Dataset and A Frequency-Aware Shadow Erasing Net [42.32958776152137]
ドキュメントをカジュアルな機器でキャプチャすると、シャドウが発生することが多い。
自然なシャドウ除去のアルゴリズムとは異なり、文書シャドウ除去のアルゴリズムはフォントや数字の詳細を高精細な入力で保存する必要がある。
より大規模な実世界のデータセットと、慎重に設計された周波数対応ネットワークを介して、高解像度のドキュメントシャドウ除去を処理します。
論文 参考訳(メタデータ) (2023-08-27T22:45:24Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - ShaDocNet: Learning Spatial-Aware Tokens in Transformer for Document
Shadow Removal [53.01990632289937]
本稿では,文書陰影除去のためのトランスフォーマーモデルを提案する。
シャドウとシャドウフリーの両方の領域で、シャドウコンテキストエンコーディングとデコードを使用する。
論文 参考訳(メタデータ) (2022-11-30T01:46:29Z) - Perceptual Image Enhancement for Smartphone Real-Time Applications [60.45737626529091]
本稿では,知覚的画像強調のための軽量ネットワークLPIENetを提案する。
我々のモデルは、ノイズアーティファクト、回折アーティファクト、ぼかし、HDR過剰露光を扱うことができる。
我々のモデルは、中級商用スマートフォンで1秒未満で2K解像度画像を処理することができる。
論文 参考訳(メタデータ) (2022-10-24T19:16:33Z) - EraseNet: A Recurrent Residual Network for Supervised Document Cleaning [0.0]
本稿では, 完全畳み込み型自動エンコーダアーキテクチャを用いて, 汚れた文書のクリーニングを指導する手法を提案する。
本実験では, モデルが各種の常用音や異常音を学習し, 効率よく修正できるので, 有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T04:23:25Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Semantic-Guided Zero-Shot Learning for Low-Light Image/Video Enhancement [3.4722706398428493]
低照度画像は人間の知覚とコンピュータビジョンのアルゴリズムの両方に挑戦する。
計算写真やコンピュータビジョンアプリケーションのための低照度画像の啓蒙にアルゴリズムを堅牢にすることが不可欠である。
本稿では,ペア画像の欠如により訓練されたセマンティック誘導ゼロショット低照度拡張ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T10:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。