論文の概要: Depth-Sensitive Soft Suppression with RGB-D Inter-Modal Stylization Flow for Domain Generalization Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.07050v1
- Date: Sun, 11 May 2025 16:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.182515
- Title: Depth-Sensitive Soft Suppression with RGB-D Inter-Modal Stylization Flow for Domain Generalization Semantic Segmentation
- Title(参考訳): 領域一般化セマンティックセマンティックセグメンテーションのためのRGB-Dモード間スチル化流を用いた深部感性軟抑制
- Authors: Binbin Wei, Yuhang Zhang, Shishun Tian, Muxin Liao, Wei Li, Wenbin Zou,
- Abstract要約: Unsupervised Domain Adaptation (UDA)は、ソースとターゲットのドメイン分布を整列してドメインギャップを埋めることを目的としているが、それでもターゲットデータを取得するのに苦労している。
近年の研究は、深度マップがUDAタスクの一般化性能の向上に寄与していることを明らかにしているが、デバイスや環境要因による深度マップのノイズや穴は無視されている。
本稿では,DGセマンティックセグメンテーションのための深度マップからドメイン不変の特徴を学習することに着目し,RGB-Dインターモーダルスタイリングフロー(DSSS)を用いたDepth-Sensitive Soft Suppressionという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.532513128529304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised Domain Adaptation (UDA) aims to align source and target domain distributions to close the domain gap, but still struggles with obtaining the target data. Fortunately, Domain Generalization (DG) excels without the need for any target data. Recent works expose that depth maps contribute to improved generalized performance in the UDA tasks, but they ignore the noise and holes in depth maps due to device and environmental factors, failing to sufficiently and effectively learn domain-invariant representation. Although high-sensitivity region suppression has shown promising results in learning domain-invariant features, existing methods cannot be directly applicable to depth maps due to their unique characteristics. Hence, we propose a novel framework, namely Depth-Sensitive Soft Suppression with RGB-D inter-modal stylization flow (DSSS), focusing on learning domain-invariant features from depth maps for the DG semantic segmentation. Specifically, we propose the RGB-D inter-modal stylization flow to generate stylized depth maps for sensitivity detection, cleverly utilizing RGB information as the stylization source. Then, a class-wise soft spatial sensitivity suppression is designed to identify and emphasize non-sensitive depth features that contain more domain-invariant information. Furthermore, an RGB-D soft alignment loss is proposed to ensure that the stylized depth maps only align part of the RGB features while still retaining the unique depth information. To our best knowledge, our DSSS framework is the first work to integrate RGB and Depth information in the multi-class DG semantic segmentation task. Extensive experiments over multiple backbone networks show that our framework achieves remarkable performance improvement.
- Abstract(参考訳): Unsupervised Domain Adaptation (UDA)は、ソースとターゲットのドメイン分布を整列してドメインギャップを埋めることを目的としているが、それでもターゲットデータを取得するのに苦労している。
幸いなことに、ドメイン一般化(DG)はターゲットデータを必要としない。
最近の研究は、深度マップがUDAタスクの一般化性能の向上に寄与することを示しているが、デバイスや環境要因による深度マップのノイズや穴は無視され、ドメイン不変表現を十分かつ効果的に学習することができない。
高感度領域抑圧は、ドメイン不変の特徴を学習する上で有望な結果を示しているが、既存の手法は、その特徴から、深度マップに直接適用することはできない。
そこで本研究では,DGセマンティックセグメンテーションのための深度マップからドメイン不変の特徴を学習することに着目し,RGB-Dインターモーダルスタイリングフロー(DSSS)を用いたDepth-Sensitive Soft Suppressionを提案する。
具体的には、感性検出のためのスタイリング深度マップを生成するためのRGB-Dインターモーダルスタイリングフローを提案し、RGB情報をスタイリングソースとして巧みに活用する。
次に、よりドメイン不変情報を含む非感度深度特徴を特定し、強調するために、クラスワイドな空間感度抑制を設計する。
さらに,RGB-Dソフトアライメントロスが提案され,RGB特徴の一部のみをアライメントすると同時に,固有深度情報を保持しながら,スタイリングされた深度マップが整列することを保証している。
我々の知る限り、DSSSフレームワークは、マルチクラスDGセマンティックセマンティックセマンティクスタスクにRGBとDepth情報を統合するための最初の取り組みである。
複数のバックボーンネットワーク上での大規模な実験により,我々のフレームワークは顕著な性能向上を実現している。
関連論文リスト
- PDDM: Pseudo Depth Diffusion Model for RGB-PD Semantic Segmentation Based in Complex Indoor Scenes [6.698379291727345]
高精度深度推定アルゴリズムからの擬似深さ(PD)は、RGB-Dセンサやアライメントプロセスへの依存をなくすことができる。
PDはセマンティックセグメンテーションにおいて有意な潜在性を示した。
PDは複数の擬似深度写像を単一のモードに集約する。
PDは最先端のパフォーマンスを達成し、NYUv2では+6.98 mIoU、SUNRGB-Dでは+2.11 mIoUに勝る。
論文 参考訳(メタデータ) (2025-03-24T07:05:31Z) - Depth Matters: Exploring Deep Interactions of RGB-D for Semantic Segmentation in Traffic Scenes [11.446541235218396]
本研究では、深度の有効性を探求するために、新しい学習可能な深度相互作用ピラミッド変換器(DiPFormer)を提案する。
DiPFormerはKITTI(KITTI道路で97.57%Fスコア、KITTI-360で68.74%mIoU)とCityscapesデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-09-12T12:39:34Z) - Source-Free Domain Adaptation for RGB-D Semantic Segmentation with
Vision Transformers [11.13182313760599]
MultImodal Source-Free Information fusion Transformer - ソースフリーセマンティックセマンティックセグメンテーションのための奥行き認識フレームワーク。
我々のフレームワークは、RGB-D視覚変換器をソースフリーセマンティックセグメンテーションに利用する最初のアプローチであり、顕著な性能向上を示している。
論文 参考訳(メタデータ) (2023-05-23T17:20:47Z) - Spherical Space Feature Decomposition for Guided Depth Map
Super-Resolution [123.04455334124188]
誘導深度マップ超解像(GDSR)は、低解像度(LR)深度マップに高解像度(HR)RGB画像を含む追加情報を加えることを目的としている。
本稿では,この問題を解決するために,Spherical Space Feature Decomposition Network (SSDNet)を提案する。
提案手法は,4つのテストデータセットの最先端結果と実世界のシーンへの一般化を実現する。
論文 参考訳(メタデータ) (2023-03-15T21:22:21Z) - DCANet: Differential Convolution Attention Network for RGB-D Semantic
Segmentation [2.2032272277334375]
深度データに対する幾何情報と局所範囲相関を考慮した画素差分畳み込みアテンション(DCA)モジュールを提案する。
DCAを拡張して、長距離コンテキスト依存を伝播する差分畳み込み注意(EDCA)をアンサンブルする。
DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバルな情報を融合するために提案されている。
論文 参考訳(メタデータ) (2022-10-13T05:17:34Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。