論文の概要: DocEnTr: An End-to-End Document Image Enhancement Transformer
- arxiv url: http://arxiv.org/abs/2201.10252v1
- Date: Tue, 25 Jan 2022 11:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 23:59:21.429096
- Title: DocEnTr: An End-to-End Document Image Enhancement Transformer
- Title(参考訳): DocEnTr: エンドツーエンドのドキュメントイメージ拡張トランス
- Authors: Mohamed Ali Souibgui, Sanket Biswas, Sana Khamekhem Jemni, Yousri
Kessentini, Alicia Forn\'es, Josep Llad\'os, Umapada Pal
- Abstract要約: 文書画像は多くの劣化シナリオに影響され、認識と処理が困難になる。
本稿では,視覚変換器をベースとしたエンコーダデコーダアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 13.108797370734893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document images can be affected by many degradation scenarios, which cause
recognition and processing difficulties. In this age of digitization, it is
important to denoise them for proper usage. To address this challenge, we
present a new encoder-decoder architecture based on vision transformers to
enhance both machine-printed and handwritten document images, in an end-to-end
fashion. The encoder operates directly on the pixel patches with their
positional information without the use of any convolutional layers, while the
decoder reconstructs a clean image from the encoded patches. Conducted
experiments show a superiority of the proposed model compared to the state-of
the-art methods on several DIBCO benchmarks. Code and models will be publicly
available at: \url{https://github.com/dali92002/DocEnTR}.
- Abstract(参考訳): 文書画像は多くの劣化シナリオに影響され、認識と処理が困難になる。
このデジタル化の時代には、適切な使用のためにそれらを軽視することが重要である。
この課題に対処するために,視覚変換器をベースとしたエンコーダデコーダアーキテクチャを提案する。
エンコーダは、畳み込み層を使用せずに、ピクセルパッチと位置情報を直接操作し、デコーダは、符号化されたパッチからクリーンイメージを再構築する。
実験の結果,dibcoベンチマークにおける最先端手法と比較して,提案モデルが優れていることがわかった。
コードとモデルは以下で公開される。 \url{https://github.com/dali92002/DocEnTR}。
関連論文リスト
- A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - DocBinFormer: A Two-Level Transformer Network for Effective Document
Image Binarization [17.087982099845156]
文書のバイナライゼーションは、あらゆる文書分析タスクにおいて最も最適なパフォーマンスを達成するための基本的で重要なステップである。
文書画像の効果的なバイナライゼーションのための視覚変換器をベースとした新しい2レベル視覚変換器(TL-ViT)アーキテクチャであるDocBinFormerを提案する。
論文 参考訳(メタデータ) (2023-12-06T16:01:29Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Watermarking Images in Self-Supervised Latent Spaces [75.99287942537138]
我々は,自己教師型アプローチに照らして,事前学習した深層ネットワークに基づく透かし手法を再検討する。
我々は、マーク時間におけるデータの増大を利用して、マークとバイナリのメッセージをその潜在空間に埋め込む方法を提案する。
論文 参考訳(メタデータ) (2021-12-17T15:52:46Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - StegaPos: Preventing Crops and Splices with Imperceptible Positional
Encodings [0.0]
本稿では,写真家が発行した画像の真正コピーである画像の識別モデルを提案する。
このモデルは、カメラマンと共存するエンコーダと、観察者が利用できるマッチングデコーダから構成されている。
エンコーダとデコーダを一緒に訓練すると,位置を知覚的にエンコードするモデルが生成される。
論文 参考訳(メタデータ) (2021-04-25T23:42:29Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。