論文の概要: DocEnTr: An End-to-End Document Image Enhancement Transformer
- arxiv url: http://arxiv.org/abs/2201.10252v1
- Date: Tue, 25 Jan 2022 11:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 23:59:21.429096
- Title: DocEnTr: An End-to-End Document Image Enhancement Transformer
- Title(参考訳): DocEnTr: エンドツーエンドのドキュメントイメージ拡張トランス
- Authors: Mohamed Ali Souibgui, Sanket Biswas, Sana Khamekhem Jemni, Yousri
Kessentini, Alicia Forn\'es, Josep Llad\'os, Umapada Pal
- Abstract要約: 文書画像は多くの劣化シナリオに影響され、認識と処理が困難になる。
本稿では,視覚変換器をベースとしたエンコーダデコーダアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 13.108797370734893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document images can be affected by many degradation scenarios, which cause
recognition and processing difficulties. In this age of digitization, it is
important to denoise them for proper usage. To address this challenge, we
present a new encoder-decoder architecture based on vision transformers to
enhance both machine-printed and handwritten document images, in an end-to-end
fashion. The encoder operates directly on the pixel patches with their
positional information without the use of any convolutional layers, while the
decoder reconstructs a clean image from the encoded patches. Conducted
experiments show a superiority of the proposed model compared to the state-of
the-art methods on several DIBCO benchmarks. Code and models will be publicly
available at: \url{https://github.com/dali92002/DocEnTR}.
- Abstract(参考訳): 文書画像は多くの劣化シナリオに影響され、認識と処理が困難になる。
このデジタル化の時代には、適切な使用のためにそれらを軽視することが重要である。
この課題に対処するために,視覚変換器をベースとしたエンコーダデコーダアーキテクチャを提案する。
エンコーダは、畳み込み層を使用せずに、ピクセルパッチと位置情報を直接操作し、デコーダは、符号化されたパッチからクリーンイメージを再構築する。
実験の結果,dibcoベンチマークにおける最先端手法と比較して,提案モデルが優れていることがわかった。
コードとモデルは以下で公開される。 \url{https://github.com/dali92002/DocEnTR}。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - DocBinFormer: A Two-Level Transformer Network for Effective Document
Image Binarization [17.087982099845156]
文書のバイナライゼーションは、あらゆる文書分析タスクにおいて最も最適なパフォーマンスを達成するための基本的で重要なステップである。
文書画像の効果的なバイナライゼーションのための視覚変換器をベースとした新しい2レベル視覚変換器(TL-ViT)アーキテクチャであるDocBinFormerを提案する。
論文 参考訳(メタデータ) (2023-12-06T16:01:29Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - StegaPos: Preventing Crops and Splices with Imperceptible Positional
Encodings [0.0]
本稿では,写真家が発行した画像の真正コピーである画像の識別モデルを提案する。
このモデルは、カメラマンと共存するエンコーダと、観察者が利用できるマッチングデコーダから構成されている。
エンコーダとデコーダを一緒に訓練すると,位置を知覚的にエンコードするモデルが生成される。
論文 参考訳(メタデータ) (2021-04-25T23:42:29Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。