論文の概要: WavShadow: Wavelet Based Shadow Segmentation and Removal
- arxiv url: http://arxiv.org/abs/2411.05747v1
- Date: Fri, 08 Nov 2024 18:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:24.928007
- Title: WavShadow: Wavelet Based Shadow Segmentation and Removal
- Title(参考訳): WavShadow: Waveletベースのシャドウセグメンテーションと削除
- Authors: Shreyans Jain, Aadya Arora, Viraj Vekaria, Karan Gandhi,
- Abstract要約: 本研究では,Masked Autoencoder(MAE)とFast Fourier Convolution(FFC)ブロックを組み込むことで,ShadowFormerモデルを改善する新しい手法を提案する。
1)Places2データセットでトレーニングされたMAE事前情報の統合によるコンテキスト理解,(2)エッジ検出とマルチスケール解析のためのハールウェーブレット機能の導入,(3)ロバストシャドーセグメンテーションのための改良SAMアダプタの実装。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Shadow removal and segmentation remain challenging tasks in computer vision, particularly in complex real-world scenarios. This study presents a novel approach that enhances the ShadowFormer model by incorporating Masked Autoencoder (MAE) priors and Fast Fourier Convolution (FFC) blocks, leading to significantly faster convergence and improved performance. We introduce key innovations: (1) integration of MAE priors trained on Places2 dataset for better context understanding, (2) adoption of Haar wavelet features for enhanced edge detection and multi-scale analysis, and (3) implementation of a modified SAM Adapter for robust shadow segmentation. Extensive experiments on the challenging DESOBA dataset demonstrate that our approach achieves state-of-the-art results, with notable improvements in both convergence speed and shadow removal quality.
- Abstract(参考訳): シャドウ除去とセグメンテーションはコンピュータビジョン、特に複雑な現実世界のシナリオにおいて難しい課題である。
本研究では,Masked Autoencoder (MAE) とFFC (Fast Fourier Convolution) ブロックを組み込んだシャドウホルダーモデルを提案する。
1)Places2データセットでトレーニングされたMAE事前情報の統合によるコンテキスト理解,(2)エッジ検出とマルチスケール解析のためのハールウェーブレット機能の導入,(3)ロバストシャドーセグメンテーションのための改良SAMアダプタの実装。
挑戦的なDESOBAデータセットに関する大規模な実験により、我々のアプローチは、収束速度とシャドウ除去品質の両方において顕著に改善され、最先端の結果が得られることを示した。
関連論文リスト
- MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection [90.4751446041017]
スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-07T03:16:33Z) - A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。
第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。
第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。
我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文 参考訳(メタデータ) (2024-08-05T05:33:59Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - Revisiting the Encoding of Satellite Image Time Series [2.5874041837241304]
画像時系列(SITS)時間学習は、高時間分解能と不規則な取得時間のために複雑である。
我々は、クエリベースのトランスフォーマーデコーダを採用する最近のトレンドに触発されて、直接セット予測問題としてSITS処理の新たな視点を開発する。
衛星PASTISベンチマークデータセットを用いて,SOTA(State-of-the-art)の新たな結果を得た。
論文 参考訳(メタデータ) (2023-05-03T12:44:20Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。