論文の概要: High-Fidelity Document Stain Removal via A Large-Scale Real-World Dataset and A Memory-Augmented Transformer
- arxiv url: http://arxiv.org/abs/2410.22922v1
- Date: Wed, 30 Oct 2024 11:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:34.201742
- Title: High-Fidelity Document Stain Removal via A Large-Scale Real-World Dataset and A Memory-Augmented Transformer
- Title(参考訳): 大規模実世界データセットとメモリ拡張変換器による高忠実度文書ステイン除去
- Authors: Mingxian Li, Hao Sun, Yingtie Lei, Xiaofeng Zhang, Yihang Dong, Yilin Zhou, Zimeng Li, Xuhang Chen,
- Abstract要約: StainDocは、ドキュメントの汚れを取り除くために特別に設計された、最初の大規模で高解像度のデータセットである。
本稿では,変換器をベースとした文書の汚れ除去手法であるStainRestorerを提案する。
本研究は,メモリ拡張トランスフォーマーの可能性を強調し,今後の研究を進める上で貴重なデータセットを提供する。
- 参考スコア(独自算出の注目度): 11.92489887549143
- License:
- Abstract: Document images are often degraded by various stains, significantly impacting their readability and hindering downstream applications such as document digitization and analysis. The absence of a comprehensive stained document dataset has limited the effectiveness of existing document enhancement methods in removing stains while preserving fine-grained details. To address this challenge, we construct StainDoc, the first large-scale, high-resolution ($2145\times2245$) dataset specifically designed for document stain removal. StainDoc comprises over 5,000 pairs of stained and clean document images across multiple scenes. This dataset encompasses a diverse range of stain types, severities, and document backgrounds, facilitating robust training and evaluation of document stain removal algorithms. Furthermore, we propose StainRestorer, a Transformer-based document stain removal approach. StainRestorer employs a memory-augmented Transformer architecture that captures hierarchical stain representations at part, instance, and semantic levels via the DocMemory module. The Stain Removal Transformer (SRTransformer) leverages these feature representations through a dual attention mechanism: an enhanced spatial attention with an expanded receptive field, and a channel attention captures channel-wise feature importance. This combination enables precise stain removal while preserving document content integrity. Extensive experiments demonstrate StainRestorer's superior performance over state-of-the-art methods on the StainDoc dataset and its variants StainDoc\_Mark and StainDoc\_Seal, establishing a new benchmark for document stain removal. Our work highlights the potential of memory-augmented Transformers for this task and contributes a valuable dataset to advance future research.
- Abstract(参考訳): 文書画像は、様々な染色によって劣化し、可読性に大きな影響を与え、文書のデジタル化や解析のような下流のアプリケーションを妨げる。
包括的な染色された文書データセットが存在しないことは、きめ細かな詳細を保存しつつ、染色を除去する既存の文書強調手法の有効性を制限している。
この課題に対処するため、文書の汚れを取り除くために特別に設計された、最初の大規模で高解像度な(2145\times2245$)データセットであるStainDocを構築した。
StainDocは、複数のシーンにまたがって5000以上のステンドとクリーンなドキュメントイメージで構成されている。
このデータセットは、さまざまな種類の染色タイプ、重大さ、文書の背景を包含し、堅牢なトレーニングと文書の汚れ除去アルゴリズムの評価を容易にする。
さらに,トランスフォーマーを用いた文書の汚れ除去手法であるStainRestorerを提案する。
StainRestorerはメモリ拡張されたTransformerアーキテクチャを採用しており、DocMemoryモジュールを通じて階層的な染色表現、例えばセマンティックレベルをキャプチャする。
Stain removal Transformer (SRTransformer) は、この特徴表現をデュアルアテンション機構により活用する。
この組み合わせにより、文書内容の完全性を維持しながら、正確な汚れの除去が可能になる。
大規模な実験では、StainDocデータセットとその変種であるStainDoc\_MarkとStainDoc\_Sealの最先端メソッドよりもStainRestorerの方が優れたパフォーマンスを示し、ドキュメントの汚れを取り除くための新しいベンチマークを確立した。
本研究は,メモリ拡張トランスフォーマーの可能性を強調し,今後の研究を進める上で貴重なデータセットを提供する。
関連論文リスト
- HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks [38.6455393290578]
本稿では,デウォープ,デシェードイング,外観向上,デブロアリング,バイナライゼーションを含む5つの文書画像復元タスクを統一するDocResを提案する。
DocResに異なる復元タスクを指示するために、Dynamic Task-Specific Prompt (DTSPrompt)と呼ばれる新しいビジュアルプロンプトアプローチを提案する。
DTSPromptは、高解像度で可変解像度の入力にシームレスに適用できるため、従来の視覚的プロンプトアプローチよりも柔軟である。
論文 参考訳(メタデータ) (2024-05-07T15:35:43Z) - DocStormer: Revitalizing Multi-Degraded Colored Document Images to
Pristine PDF [16.00821082362719]
色とりどりの多彩な画像の復元は大きな課題だが、見落としている。
本稿では,多彩色文書をPDFに復元する新しいアルゴリズムであるDocStormerを提案する。
論文 参考訳(メタデータ) (2023-10-27T05:59:12Z) - DocDeshadower: Frequency-Aware Transformer for Document Shadow Removal [36.182923899021496]
現在のシャドウ除去技術は、さまざまなシャドウインテンシティの扱いやドキュメントの保存において制限に直面している。
ラプラシアンピラミッド上に構築された新しい多周波トランスフォーマーモデルDocDeshadowerを提案する。
DocDeshadowerは最先端の手法に比べて優れた性能を示している。
論文 参考訳(メタデータ) (2023-07-28T05:35:37Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - EraseNet: A Recurrent Residual Network for Supervised Document Cleaning [0.0]
本稿では, 完全畳み込み型自動エンコーダアーキテクチャを用いて, 汚れた文書のクリーニングを指導する手法を提案する。
本実験では, モデルが各種の常用音や異常音を学習し, 効率よく修正できるので, 有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T04:23:25Z) - Augraphy: A Data Augmentation Library for Document Images [59.457999432618614]
Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
論文 参考訳(メタデータ) (2022-08-30T22:36:19Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。