論文の概要: MatteViT: High-Frequency-Aware Document Shadow Removal with Shadow Matte Guidance
- arxiv url: http://arxiv.org/abs/2512.08789v1
- Date: Tue, 09 Dec 2025 16:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.052069
- Title: MatteViT: High-Frequency-Aware Document Shadow Removal with Shadow Matte Guidance
- Title(参考訳): MatteViT: シャドウマット誘導による高周波対応ドキュメントシャドウ除去
- Authors: Chaewon Kim, Seoyeon Lee, Jonghyuk Park,
- Abstract要約: 文書のシャドウ除去は、デジタル化された文書の明瞭さを高めるために不可欠である。
本稿では,微細な構造を保ちながら影を除去するマット・ビジョン・トランスフォーマ (MatteViT) を提案する。
- 参考スコア(独自算出の注目度): 8.823244071737868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document shadow removal is essential for enhancing the clarity of digitized documents. Preserving high-frequency details (e.g., text edges and lines) is critical in this process because shadows often obscure or distort fine structures. This paper proposes a matte vision transformer (MatteViT), a novel shadow removal framework that applies spatial and frequency-domain information to eliminate shadows while preserving fine-grained structural details. To effectively retain these details, we employ two preservation strategies. First, our method introduces a lightweight high-frequency amplification module (HFAM) that decomposes and adaptively amplifies high-frequency components. Second, we present a continuous luminance-based shadow matte, generated using a custom-built matte dataset and shadow matte generator, which provides precise spatial guidance from the earliest processing stage. These strategies enable the model to accurately identify fine-grained regions and restore them with high fidelity. Extensive experiments on public benchmarks (RDD and Kligler) demonstrate that MatteViT achieves state-of-the-art performance, providing a robust and practical solution for real-world document shadow removal. Furthermore, the proposed method better preserves text-level details in downstream tasks, such as optical character recognition, improving recognition performance over prior methods.
- Abstract(参考訳): 文書のシャドウ除去は、デジタル化された文書の明瞭さを高めるために不可欠である。
この過程において、高頻度の詳細(例えばテキストのエッジや線)を保存することは、しばしば影が不明瞭で微細な構造を歪めてしまうため、非常に重要である。
本稿では,空間・周波数領域情報を適用し,微細な構造を保ちながら影を除去するマット・ビジョン・トランスフォーマ (MatteViT) を提案する。
これらの詳細を効果的に維持するために、我々は2つの保存戦略を採用している。
まず、高周波数成分を分解・適応的に増幅する軽量高周波増幅モジュール(HFAM)を導入する。
第2に、初期処理段階から正確な空間ガイダンスを提供する、カスタム構築されたマットデータセットとシャドウマットジェネレータを用いて連続輝度ベースのシャドウマットを生成する。
これらの戦略により、モデルはきめ細かい領域を正確に識別し、それらを高い忠実度で復元することができる。
公開ベンチマーク(RDDとKligler)に関する大規模な実験は、MatteViTが最先端のパフォーマンスを実現し、実世界の文書のシャドウ除去のための堅牢で実用的なソリューションを提供することを示した。
さらに,提案手法は,光文字認識や先行手法による認識性能の向上など,下流タスクにおけるテキストレベルの細部をよりよく保存する。
関連論文リスト
- DocShaDiffusion: Diffusion Model in Latent Space for Document Image Shadow Removal [61.375359734723716]
既存の方法は、一定の色の背景を持つ影を除去し、色影を無視する傾向がある。
本稿では,DocShaDiffusionと呼ばれる文書画像の影除去のための遅延空間での拡散モデルの設計を行う。
カラーシャドウの問題に対処するため、影ソフトマスク生成モジュール(SSGM)を設計する。
影マスク対応拡散モジュール (SMGDM) を提案し, 拡散・復調過程を監督し, 文書画像から影を除去する。
論文 参考訳(メタデータ) (2025-07-02T07:22:09Z) - Leveraging Contrast Information for Efficient Document Shadow Removal [15.35209972174416]
ドキュメントのシャドーは、デジタル化プロセスにおける大きな障害です。
コントラスト表現による文書のシャドウ除去手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T03:06:20Z) - Detail-Preserving Latent Diffusion for Stable Shadow Removal [24.18957090960958]
安定かつ効率的なシャドウ除去に安定拡散モデルを適用するための2段階微調整パイプラインを提案する。
実験の結果,提案手法は最先端のシャドウ除去技術より優れていた。
論文 参考訳(メタデータ) (2024-12-23T15:06:46Z) - MetaShadow: Object-Centered Shadow Detection, Removal, and Synthesis [64.00425120075045]
シャドウは画像編集アプリケーションでは過小評価されるか無視されることが多く、編集結果のリアリズムが制限される。
本稿では,自然画像中の影の検出・除去・制御が可能な3-in-one多元性フレームワークであるMetaShadowを紹介する。
論文 参考訳(メタデータ) (2024-12-03T18:04:42Z) - ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal [3.5734732877967392]
本稿では,シャドウ除去用に設計された最初のマンバモデルであるShadowMambaを提案する。
実験の結果,提案手法はAISTD, ISTD, SRDデータセットにおいて, 従来の主流手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-05T16:59:06Z) - Latent Feature-Guided Diffusion Models for Shadow Removal [47.21387783721207]
本稿では,拡散過程における影領域の詳細を段階的に洗練する,有望なアプローチとして拡散モデルの利用を提案する。
シャドウフリー画像の特徴を継承する学習された潜在特徴空間を条件付けすることで,この処理を改善する。
AISTDデータセット上でRMSEを13%向上させる手法の有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - DocDeshadower: Frequency-Aware Transformer for Document Shadow Removal [36.182923899021496]
現在のシャドウ除去技術は、さまざまなシャドウインテンシティの扱いやドキュメントの保存において制限に直面している。
ラプラシアンピラミッド上に構築された新しい多周波トランスフォーマーモデルDocDeshadowerを提案する。
DocDeshadowerは最先端の手法に比べて優れた性能を示している。
論文 参考訳(メタデータ) (2023-07-28T05:35:37Z) - Structure-Informed Shadow Removal Networks [67.57092870994029]
既存のディープラーニングベースのシャドウ除去手法は、依然として影の残像を持つ画像を生成する。
本稿では,影残差問題に対処するために,画像構造情報を活用する構造インフォームド・シャドウ除去ネットワーク(StructNet)を提案する。
我々の手法は既存のシャドウ除去方法よりも優れており、StructNetは既存の手法と統合してさらに改善することができる。
論文 参考訳(メタデータ) (2023-01-09T06:31:52Z) - ShaDocNet: Learning Spatial-Aware Tokens in Transformer for Document
Shadow Removal [53.01990632289937]
本稿では,文書陰影除去のためのトランスフォーマーモデルを提案する。
シャドウとシャドウフリーの両方の領域で、シャドウコンテキストエンコーディングとデコードを使用する。
論文 参考訳(メタデータ) (2022-11-30T01:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。