論文の概要: ShaDocFormer: A Shadow-Attentive Threshold Detector With Cascaded Fusion Refiner for Document Shadow Removal
- arxiv url: http://arxiv.org/abs/2309.06670v3
- Date: Wed, 20 Mar 2024 02:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 22:37:29.187544
- Title: ShaDocFormer: A Shadow-Attentive Threshold Detector With Cascaded Fusion Refiner for Document Shadow Removal
- Title(参考訳): ShaDocFormer: ドキュメントシャドウ除去のためのカスケード融合精錬器を備えたシャドウ検出用閾値検出器
- Authors: Weiwen Chen, Yingtie Lei, Shenghong Luo, Xuhang Chen, Ziyang Zhou, Mingxian Li, Chi-Man Pun,
- Abstract要約: 本稿では,文書陰影除去の問題に対処するために,従来の手法とディープラーニング技術を統合したTransformerベースのアーキテクチャを提案する。
ShaDocFormerアーキテクチャは、Shadow-attentive Threshold Detector (STD)とCascaded Fusion Refiner (CFR)の2つのコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 26.890313067227964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document shadow is a common issue that arises when capturing documents using mobile devices, which significantly impacts readability. Current methods encounter various challenges, including inaccurate detection of shadow masks and estimation of illumination. In this paper, we propose ShaDocFormer, a Transformer-based architecture that integrates traditional methodologies and deep learning techniques to tackle the problem of document shadow removal. The ShaDocFormer architecture comprises two components: the Shadow-attentive Threshold Detector (STD) and the Cascaded Fusion Refiner (CFR). The STD module employs a traditional thresholding technique and leverages the attention mechanism of the Transformer to gather global information, thereby enabling precise detection of shadow masks. The cascaded and aggregative structure of the CFR module facilitates a coarse-to-fine restoration process for the entire image. As a result, ShaDocFormer excels in accurately detecting and capturing variations in both shadow and illumination, thereby enabling effective removal of shadows. Extensive experiments demonstrate that ShaDocFormer outperforms current state-of-the-art methods in both qualitative and quantitative measurements.
- Abstract(参考訳): ドキュメントシャドーは、モバイルデバイスを使用してドキュメントをキャプチャするときに発生する一般的な問題であり、可読性に大きな影響を及ぼす。
現在の手法では、シャドーマスクの不正確な検出や照明推定など、様々な課題に直面している。
本稿では,文書陰影除去問題に対処するために,従来の手法とディープラーニング技術を統合するトランスフォーマーベースのアーキテクチャであるShaDocFormerを提案する。
ShaDocFormerアーキテクチャは、Shadow-attentive Threshold Detector (STD)とCascaded Fusion Refiner (CFR)の2つのコンポーネントで構成されている。
STDモジュールは従来のしきい値設定技術を採用し、Transformerのアテンション機構を利用してグローバル情報を収集し、シャドーマスクの正確な検出を可能にする。
CFRモジュールのカスケード及び凝集構造は、画像全体の粗大な復元プロセスを容易にする。
その結果、ShaDocFormerは、シャドウと照明の両方のバリエーションを正確に検出およびキャプチャし、効果的にシャドウを削除することができる。
大規模な実験により、ShaDocFormerは定性測定と定量的測定の両方で現在の最先端の手法より優れていることが示された。
関連論文リスト
- ShadowMaskFormer: Mask Augmented Patch Embeddings for Shadow Removal [13.983288991595614]
そこで我々はShadowMaskFormerと呼ばれるシャドー除去に適した新しいパッチ埋め込みを備えたトランスフォーマーベースのフレームワークを提案する。
具体的には、シャドウ情報を統合し、シャドウ領域の知識獲得にモデルが重点を置くことを促進するための、シンプルで効果的なマスク拡張パッチ埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-29T05:17:33Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - DocDeshadower: Frequency-aware Transformer for Document Shadow Removal [49.107557554811144]
DocDeshadowerはラプラシアンピラミッド上に構築された多周波トランスフォーマーベースのモデルである。
ラプラシアンピラミッドを用いて影画像を異なる周波数帯域に分解する。
Attention-Aggregation Networkは、画像の低周波部分の影を取り除くように設計されている。
Gated Multi-scale Fusion Transformerは、その大きな知覚場で全画像をグローバルスケールで洗練する。
論文 参考訳(メタデータ) (2023-07-28T05:35:37Z) - Structure-Informed Shadow Removal Networks [67.57092870994029]
既存のディープラーニングベースのシャドウ除去手法は、依然として影の残像を持つ画像を生成する。
本稿では,影残差問題に対処するために,画像構造情報を活用する構造インフォームド・シャドウ除去ネットワーク(StructNet)を提案する。
我々の手法は既存のシャドウ除去方法よりも優れており、StructNetは既存の手法と統合してさらに改善することができる。
論文 参考訳(メタデータ) (2023-01-09T06:31:52Z) - ShaDocNet: Learning Spatial-Aware Tokens in Transformer for Document
Shadow Removal [53.01990632289937]
本稿では,文書陰影除去のためのトランスフォーマーモデルを提案する。
シャドウとシャドウフリーの両方の領域で、シャドウコンテキストエンコーディングとデコードを使用する。
論文 参考訳(メタデータ) (2022-11-30T01:46:29Z) - SpA-Former: Transformer image shadow detection and removal via spatial
attention [8.643096072885909]
シャドウフリー画像を単一の陰影画像から復元するエンド・ツー・エンドのSpA-Formerを提案する。
シャドー検出とシャドー除去の2つのステップを必要とする従来の方法とは異なり、SpA-Formerはこれらのステップを1つに統合する。
論文 参考訳(メタデータ) (2022-06-22T08:30:22Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - R2D: Learning Shadow Removal to Enhance Fine-Context Shadow Detection [64.10636296274168]
現在のシャドウ検出方法は、小さく、不明瞭で、ぼやけたエッジを持つシャドウ領域を検出する際には、性能が良くない。
本稿では,深層ニューラルネットワークを修復訓練(シャドウ除去)するRestore to Detect(R2D)という新しい手法を提案する。
提案手法は,近年の手法に比べて微妙なコンテキストの検出が可能でありながら,影検出性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-20T15:09:22Z) - Temporal Feature Warping for Video Shadow Detection [30.82493923485278]
本稿では,情報収集を時間的に改善する簡易かつ強力な手法を提案する。
我々は、光フローベースのワープモジュールを使用して、フレーム間の特徴を調整し、組み合わせます。
このワープモジュールを複数のディープ・ネットワーク・レイヤにまたがって適用し、局所的な詳細情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。
論文 参考訳(メタデータ) (2021-07-29T19:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。