論文の概要: Revisiting Shadow Detection from a Vision-Language Perspective
- arxiv url: http://arxiv.org/abs/2605.11771v1
- Date: Tue, 12 May 2026 08:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.722848
- Title: Revisiting Shadow Detection from a Vision-Language Perspective
- Title(参考訳): 視覚領域から見た影検出の再検討
- Authors: Yonghui Wang, Wengang Zhou, Hao Feng, Houqiang Li,
- Abstract要約: Shadow Vision-Language (SVL)は、視覚的に類似した暗黒領域からの曖昧な影への明示的なセマンティック参照として言語を使用する。
SVLはテキスト埋め込みに局所的なパッチレベルの制約を適用し、挑戦的な外観条件下でのきめ細かい識別を改善する。
フリーズされたDINOv3イメージエンコーダ上に構築されたこのフレームワークは、軽量なプロジェクションとデコードモジュールのみを学習し、トレーニング可能なパラメータが1%未満のパラメータ効率の高い設計をもたらす。
- 参考スコア(独自算出の注目度): 88.46763399969217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shadow detection is commonly formulated as a vision-driven dense prediction problem, where models rely primarily on pixel-wise visual supervision to distinguish shadows from non-shadow regions. However, this formulation can become unreliable in visually ambiguous cases, where similar dark regions may correspond either to cast shadows or to intrinsically dark surfaces, making visual evidence alone insufficient for establishing a stable decision rule. In this work, we revisit shadow detection from a vision--language perspective and argue that robust prediction benefits from an explicit semantic reference beyond visual cues alone. We propose SVL, a Shadow Vision--Language framework that uses language as an explicit semantic reference to disambiguate shadows from visually similar dark regions. SVL aligns the global image representation with shadow-related text embeddings through a scene-level shadow ratio regression objective, thereby providing image-level guidance on the overall extent of shadows. To transfer this global guidance to dense inference, SVL introduces a global-to-local coupling mechanism that enforces consistency between image-level guidance and patch-level predictions. In parallel, SVL applies local patch-level constraints with text embeddings to improve fine-grained discrimination under challenging appearance conditions. Built on a frozen DINOv3 image encoder, the framework learns only lightweight projection and decoding modules, yielding a parameter-efficient design with less than $1\%$ trainable parameters. Extensive experiments on multiple shadow detection benchmarks, including dedicated hard-case evaluations, suggest strong overall performance and improved robustness under visually ambiguous conditions.
- Abstract(参考訳): シャドウ検出は、主に非シャドウ領域と影を区別するためにピクセル単位の視覚的監督に依存する、視覚駆動の高密度予測問題として定式化されている。
しかし、この定式化は、類似の暗黒領域が鋳造影または本質的な暗黒面に対応し、安定した決定規則を確立するのに不十分な視覚的証拠となるような、視覚的曖昧なケースでは信頼できないものとなる。
本研究では,視覚言語の観点からのシャドウ検出を再考し,視覚的に類似した暗黒領域からの曖昧なシャドウに対する明示的なセマンティック参照として言語を用いるシャドウビジョン・ランゲージフレームワークであるSVLを提案する。
SVLは、シーンレベルのシャドウ比回帰目標を通じて、グローバルな画像表現とシャドウ関連のテキスト埋め込みを一致させ、シャドウの全体範囲に関する画像レベルのガイダンスを提供する。
このグローバルガイダンスを高密度推論に転送するために、SVLは、画像レベルのガイダンスとパッチレベルの予測との一貫性を強制するグローバル-ローカル結合機構を導入する。
並行して、SVLはテキスト埋め込みによる局所的なパッチレベルの制約を適用し、挑戦的な外観条件下でのきめ細かい識別を改善する。
フリーズされたDINOv3イメージエンコーダ上に構築されたこのフレームワークは、軽量なプロジェクションとデコードモジュールのみを学習し、トレーニング可能なパラメータが1\%未満のパラメータ効率の高い設計をもたらす。
専用のハードケース評価を含む複数のシャドウ検出ベンチマークの広範囲な実験は、視覚的にあいまいな条件下での強い全体的な性能と堅牢性の向上を示唆している。
関連論文リスト
- VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion [10.547624877131122]
挿入された前景オブジェクトに対してリアルなキャストシャドウを生成するためのVSDiffusionを提案する。
可視性に制約のある2段階のフレームワークは、可視性事前を取り入れることで、ソリューション空間を狭めるように設計されている。
広く使われているDESOBAv2データセットの実験では、提案したVSDiffusionが正確なシャドウを生成することを示した。
論文 参考訳(メタデータ) (2026-03-09T06:52:53Z) - DeshadowMamba: Deshadowing as 1D Sequential Similarity [85.07259906446588]
指向性状態遷移を通じてグローバルなコンテキストを伝播する選択状態空間モデルであるMambaを紹介する。
その可能性にもかかわらず、マンバを画像データに直接適用することは、シャドー・ノン・シャドウ・セマンティクスの認識が欠けているため、最適ではない。
我々は,マンバの入力ゲートにシャドウ・アウェアの類似性を注入する方向変調機構であるCrossGateを提案する。
外観の忠実度をさらに高めるために,グローバルな色統計によって駆動される対照的な学習目標であるColorShift正則化を導入する。
論文 参考訳(メタデータ) (2025-10-28T10:14:23Z) - Test-Time Intensity Consistency Adaptation for Shadow Detection [35.03354405371279]
TICAは、テスト時間適応時の光強度情報を利用して、影検出精度を高める新しいフレームワークである。
基本的なエンコーダ・デコーダモデルは、最初はシャドー検出のためのラベル付きデータセットでトレーニングされる。
テストフェーズでは、一貫した強度予測を行うことで、各テストサンプルに対してネットワークを調整する。
論文 参考訳(メタデータ) (2024-10-10T08:08:32Z) - SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection [90.4751446041017]
スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-07T03:16:33Z) - Delving into Dark Regions for Robust Shadow Detection [47.60700654394781]
最先端のディープメソッドは、暗黒領域の非シャドウピクセルとシャドウピクセルを区別する際のエラー率が高い傾向にある。
そこで我々は,まず画像全体を通してグローバルな文脈的手がかりを学習し,次に暗黒領域に拡大して局所的な影表現を学習する,新しいシャドウ検出手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T09:07:07Z) - Towards Better Gradient Consistency for Neural Signed Distance Functions
via Level Set Alignment [50.892158511845466]
レベルセットの並列性によって示される場の勾配一貫性が、推論精度に影響を及ぼす重要な要因であることを示す。
そこで本研究では,次数集合の並列性を評価するためのレベルセットアライメント損失を提案する。
論文 参考訳(メタデータ) (2023-05-19T11:28:05Z) - ShadowFormer: Global Context Helps Image Shadow Removal [41.742799378751364]
シャドウ領域と非シャドウ領域のグローバルな文脈的相関を利用して、ディープシャドウ除去モデルを構築することは依然として困難である。
そこで我々はまず、ShandowFormerと呼ばれる新しいトランスフォーマーベースのネットワークを導出するRetinexベースのシャドウモデルを提案する。
グローバル情報を階層的にキャプチャするために,マルチスケールチャネルアテンションフレームワークが使用される。
本稿では,影と非陰影領域のコンテキスト相関を効果的にモデル化するために,影の相互作用を考慮したSIM(Shadow-Interaction Module)を提案する。
論文 参考訳(メタデータ) (2023-02-03T10:54:52Z) - Estimating Reflectance Layer from A Single Image: Integrating
Reflectance Guidance and Shadow/Specular Aware Learning [66.36104525390316]
本稿では,2段階の学習手法を提案し,その課題に対処するためのリフレクタンスガイダンスとシャドウ/スペック・アウェア(S-Aware)ネットワークを提案する。
第1段階では、新規な損失の制約を伴い、影や特異性のない初期反射層を得る。
第二段改良において、反射層が影や特異点に依存しないようにさらに強制するために、入力画像と反射像を区別するS-Awareネットワークを導入する。
論文 参考訳(メタデータ) (2022-11-27T07:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。