論文の概要: DTTNet: Improving Video Shadow Detection via Dark-Aware Guidance and Tokenized Temporal Modeling
- arxiv url: http://arxiv.org/abs/2511.06925v1
- Date: Mon, 10 Nov 2025 10:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.20012
- Title: DTTNet: Improving Video Shadow Detection via Dark-Aware Guidance and Tokenized Temporal Modeling
- Title(参考訳): DTTNet:ダークアウェア誘導によるビデオシャドウ検出とトークン化時間モデリング
- Authors: Zhicheng Li, Kunyang Sun, Rui Yao, Hancheng Zhu, Fuyuan Hu, Jiaqi Zhao, Zhiwen Shao, Yong Zhou,
- Abstract要約: ビデオシャドウ検出は、複雑な背景からの影の識別と、様々な照明下での動的影の変形のモデル化という2つの困難に直面している。
影と背景のあいまいさに対処するために,提案したビジョンマッチングモジュール(VMM)とDark-Aware Semantic Block(DSB)を通して言語的先行性を活用する。
時間変動影形状に対して,時間的学習を分離するTokenized Temporal Block (TTB)を提案する。
- 参考スコア(独自算出の注目度): 37.33167473664897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video shadow detection confronts two entwined difficulties: distinguishing shadows from complex backgrounds and modeling dynamic shadow deformations under varying illumination. To address shadow-background ambiguity, we leverage linguistic priors through the proposed Vision-language Match Module (VMM) and a Dark-aware Semantic Block (DSB), extracting text-guided features to explicitly differentiate shadows from dark objects. Furthermore, we introduce adaptive mask reweighting to downweight penumbra regions during training and apply edge masks at the final decoder stage for better supervision. For temporal modeling of variable shadow shapes, we propose a Tokenized Temporal Block (TTB) that decouples spatiotemporal learning. TTB summarizes cross-frame shadow semantics into learnable temporal tokens, enabling efficient sequence encoding with minimal computation overhead. Comprehensive Experiments on multiple benchmark datasets demonstrate state-of-the-art accuracy and real-time inference efficiency. Codes are available at https://github.com/city-cheng/DTTNet.
- Abstract(参考訳): 複雑な背景からの影の識別と、様々な照明下での動的影の変形のモデル化である。
影と背景のあいまいさに対処するため,提案する視覚言語マッチングモジュール(VMM)とDark-Aware Semantic Block(DSB)を用いて,暗黒オブジェクトとの影を明確に区別するテキスト誘導機能を抽出した。
さらに,トレーニング中のペナブラ領域の適応マスク再重み付けを導入し,最終デコーダ段階でエッジマスクを適用し,より良い監視を行う。
可変影形状の時間的モデリングのために,時空間学習を分離するTokenized Temporal Block (TTB)を提案する。
TTBは、クロスフレームのシャドウセマンティクスを学習可能な時間トークンに要約し、計算オーバーヘッドを最小限に抑えた効率的なシーケンスエンコーディングを可能にする。
複数のベンチマークデータセットに関する総合実験は、最先端の精度とリアルタイム推論効率を示す。
コードはhttps://github.com/city-cheng/DTTNetで公開されている。
関連論文リスト
- Retinex-guided Histogram Transformer for Mask-free Shadow Removal [12.962534359029103]
ReHiTは、Retinex理論でガイドされたハイブリッドCNN-Transformerアーキテクチャに基づく、効率的なマスクフリーのシャドウ除去フレームワークである。
提案手法は,最少パラメータの1つと最上位エントリ間の高速推論速度で競合する結果を提供する。
論文 参考訳(メタデータ) (2025-04-18T22:19:40Z) - MetaShadow: Object-Centered Shadow Detection, Removal, and Synthesis [64.00425120075045]
シャドウは画像編集アプリケーションでは過小評価されるか無視されることが多く、編集結果のリアリズムが制限される。
本稿では,自然画像中の影の検出・除去・制御が可能な3-in-one多元性フレームワークであるMetaShadowを紹介する。
論文 参考訳(メタデータ) (2024-12-03T18:04:42Z) - Test-Time Intensity Consistency Adaptation for Shadow Detection [35.03354405371279]
TICAは、テスト時間適応時の光強度情報を利用して、影検出精度を高める新しいフレームワークである。
基本的なエンコーダ・デコーダモデルは、最初はシャドー検出のためのラベル付きデータセットでトレーニングされる。
テストフェーズでは、一貫した強度予測を行うことで、各テストサンプルに対してネットワークを調整する。
論文 参考訳(メタデータ) (2024-10-10T08:08:32Z) - Timeline and Boundary Guided Diffusion Network for Video Shadow Detection [22.173407949204137]
ビデオシャドウ検出(VSD)は、フレームシーケンスでシャドウマスクを検出することを目的としている。
そこで本研究では,VSD のための Timeline and boundary Guided Diffusion (TBGDiff) ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:16:21Z) - SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection [90.4751446041017]
スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-07T03:16:33Z) - Controllable Shadow Generation Using Pixel Height Maps [58.59256060452418]
物理ベースのシャドウレンダリング法は3次元のジオメトリーを必要とするが、必ずしも利用できない。
深層学習に基づく影合成法は、光情報から物体の影へのマッピングを、影の幾何学を明示的にモデル化することなく学習する。
オブジェクト,グラウンド,カメラのポーズ間の相関を符号化する新しい幾何学的表現であるピクセルハイを導入する。
論文 参考訳(メタデータ) (2022-07-12T08:29:51Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - R2D: Learning Shadow Removal to Enhance Fine-Context Shadow Detection [64.10636296274168]
現在のシャドウ検出方法は、小さく、不明瞭で、ぼやけたエッジを持つシャドウ領域を検出する際には、性能が良くない。
本稿では,深層ニューラルネットワークを修復訓練(シャドウ除去)するRestore to Detect(R2D)という新しい手法を提案する。
提案手法は,近年の手法に比べて微妙なコンテキストの検出が可能でありながら,影検出性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-20T15:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。