論文の概要: SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection
- arxiv url: http://arxiv.org/abs/2408.03521v1
- Date: Wed, 7 Aug 2024 03:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 14:05:27.711241
- Title: SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection
- Title(参考訳): SwinShadow: 曖昧な隣接したシャドウ検出のためのシフトウィンドウ
- Authors: Yonghui Wang, Shaokai Liu, Li Li, Wengang Zhou, Houqiang Li,
- Abstract要約: スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 90.4751446041017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shadow detection is a fundamental and challenging task in many computer vision applications. Intuitively, most shadows come from the occlusion of light by the object itself, resulting in the object and its shadow being contiguous (referred to as the adjacent shadow in this paper). In this case, when the color of the object is similar to that of the shadow, existing methods struggle to achieve accurate detection. To address this problem, we present SwinShadow, a transformer-based architecture that fully utilizes the powerful shifted window mechanism for detecting adjacent shadows. The mechanism operates in two steps. Initially, it applies local self-attention within a single window, enabling the network to focus on local details. Subsequently, it shifts the attention windows to facilitate inter-window attention, enabling the capture of a broader range of adjacent information. These combined steps significantly improve the network's capacity to distinguish shadows from nearby objects. And the whole process can be divided into three parts: encoder, decoder, and feature integration. During encoding, we adopt Swin Transformer to acquire hierarchical features. Then during decoding, for shallow layers, we propose a deep supervision (DS) module to suppress the false positives and boost the representation capability of shadow features for subsequent processing, while for deep layers, we leverage a double attention (DA) module to integrate local and shifted window in one stage to achieve a larger receptive field and enhance the continuity of information. Ultimately, a new multi-level aggregation (MLA) mechanism is applied to fuse the decoded features for mask prediction. Extensive experiments on three shadow detection benchmark datasets, SBU, UCF, and ISTD, demonstrate that our network achieves good performance in terms of balance error rate (BER).
- Abstract(参考訳): シャドウ検出は多くのコンピュータビジョンアプリケーションにおいて基本的で困難なタスクである。
直感的には、ほとんどの影は物体自体による光の隠蔽によるもので、物体とその影は連続している(この論文では隣接する影と呼ばれる)。
この場合、物体の色が影の色と似ている場合、既存の手法は正確な検出に苦慮する。
この問題を解決するために,隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャであるSwinShadowを提案する。
この機構は2つのステップで機能する。
最初は、単一のウィンドウ内でローカルな自己アテンションを適用し、ネットワークがローカルの詳細に集中できるようにする。
その後、アテンションウィンドウを切り替え、ウィンドウ間アテンションを容易にし、より広い範囲の隣接情報のキャプチャを可能にする。
これらの統合されたステップにより、近くのオブジェクトと影を区別するネットワークの能力が大幅に向上した。
そして、プロセス全体をエンコーダ、デコーダ、機能統合の3つの部分に分けられる。
エンコーディング中、階層的特徴を取得するためにSwin Transformerを採用する。
深層処理において、深層処理において、偽陽性を抑え、シャドー特徴の表現能力を高めるための深層監視(DS)モジュールを提案する一方で、深層処理では、ダブルアテンション(DA)モジュールを利用して、局所およびシフトウィンドウを1段階に統合し、より大きな受容場を実現し、情報の連続性を高める。
最終的に、マスク予測のためにデコードされた特徴を融合するために、新しいマルチレベルアグリゲーション(MLA)機構が適用される。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットに対する大規模な実験により、我々のネットワークはバランスエラー率(BER)において優れた性能を発揮することが示された。
関連論文リスト
- WavShadow: Wavelet Based Shadow Segmentation and Removal [0.0]
本研究では,Masked Autoencoder(MAE)とFast Fourier Convolution(FFC)ブロックを組み込むことで,ShadowFormerモデルを改善する新しい手法を提案する。
1)Places2データセットでトレーニングされたMAE事前情報の統合によるコンテキスト理解,(2)エッジ検出とマルチスケール解析のためのハールウェーブレット機能の導入,(3)ロバストシャドーセグメンテーションのための改良SAMアダプタの実装。
論文 参考訳(メタデータ) (2024-11-08T18:08:33Z) - SDDNet: Style-guided Dual-layer Disentanglement Network for Shadow
Detection [85.16141353762445]
入力シャドウ画像を背景層と影層の合成として扱い、これらの層を独立にモデル化するためのスタイル誘導デュアル層ディスタングルネットワークを設計する。
提案モデルは背景色による有害な効果を効果的に最小化し,32FPSのリアルタイム推論速度を持つ3つの公開データセットに対して優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-17T12:10:51Z) - Detect Any Shadow: Segment Anything for Video Shadow Detection [105.19693622157462]
影を検出するためのセグメンテーションモデル(SAM)を微調整するフレームワークであるShadowSAMを提案する。
長時間の注意機構と組み合わせることで、効率的な映像陰影検出が可能となる。
提案手法は,従来のビデオシャドウ検出手法と比較して高速な推論速度を示す。
論文 参考訳(メタデータ) (2023-05-26T07:39:10Z) - TransPillars: Coarse-to-Fine Aggregation for Multi-Frame 3D Object
Detection [47.941714033657675]
ポイントクラウドを用いた3Dオブジェクト検出は、自律走行とロボット工学に広く応用されているため、注目を集めている。
連続点雲フレームの時間的特徴を生かしたトランスピラース(TransPillars)を設計する。
提案するTransPillarsは,既存のマルチフレーム検出手法と比較して最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-04T15:41:43Z) - SpA-Former: Transformer image shadow detection and removal via spatial
attention [8.643096072885909]
シャドウフリー画像を単一の陰影画像から復元するエンド・ツー・エンドのSpA-Formerを提案する。
シャドー検出とシャドー除去の2つのステップを必要とする従来の方法とは異なり、SpA-Formerはこれらのステップを1つに統合する。
論文 参考訳(メタデータ) (2022-06-22T08:30:22Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - R2D: Learning Shadow Removal to Enhance Fine-Context Shadow Detection [64.10636296274168]
現在のシャドウ検出方法は、小さく、不明瞭で、ぼやけたエッジを持つシャドウ領域を検出する際には、性能が良くない。
本稿では,深層ニューラルネットワークを修復訓練(シャドウ除去)するRestore to Detect(R2D)という新しい手法を提案する。
提案手法は,近年の手法に比べて微妙なコンテキストの検出が可能でありながら,影検出性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-20T15:09:22Z) - Temporal Feature Warping for Video Shadow Detection [30.82493923485278]
本稿では,情報収集を時間的に改善する簡易かつ強力な手法を提案する。
我々は、光フローベースのワープモジュールを使用して、フレーム間の特徴を調整し、組み合わせます。
このワープモジュールを複数のディープ・ネットワーク・レイヤにまたがって適用し、局所的な詳細情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。
論文 参考訳(メタデータ) (2021-07-29T19:12:50Z) - Saliency Enhancement using Gradient Domain Edges Merging [65.90255950853674]
本研究では,エッジとサリエンシマップをマージして,サリエンシマップの性能を向上させる手法を開発した。
これにより、DUT-OMRONデータセットの少なくとも3.4倍の平均的な改善により、エッジ(SEE)を使用したサリエンシ向上が提案された。
SEEアルゴリズムは前処理のためのSEE-Preと後処理のためのSEE-Postの2つの部分に分けられる。
論文 参考訳(メタデータ) (2020-02-11T14:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。