論文の概要: DiffPixelFormer: Differential Pixel-Aware Transformer for RGB-D Indoor Scene Segmentation
- arxiv url: http://arxiv.org/abs/2511.13047v1
- Date: Mon, 17 Nov 2025 06:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.790056
- Title: DiffPixelFormer: Differential Pixel-Aware Transformer for RGB-D Indoor Scene Segmentation
- Title(参考訳): DiffPixelFormer:RGB-D屋内シーンセグメンテーション用差動画素対応変圧器
- Authors: Yan Gong, Jianli Lu, Yongsheng Gao, Jie Zhao, Xiaojuan Zhang, Susanto Rahardja,
- Abstract要約: RGB-D屋内シーンセグメンテーションのための差動画素対応変換器DiffPixelFormerを提案する。
イントラインターモーダル・インタラクション・ブロック(IIMIB)は、イントラモードの長距離依存関係をキャプチャする。
SUN RGB-D と NYUDv2 ベンチマークの実験では、DiffPixelFormer-L は 54.28% と 59.95% に達し、それぞれ DFormer-L を 1.78% と 2.75% で上回った。
- 参考スコア(独自算出の注目度): 17.57232095324351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indoor semantic segmentation is fundamental to computer vision and robotics, supporting applications such as autonomous navigation, augmented reality, and smart environments. Although RGB-D fusion leverages complementary appearance and geometric cues, existing methods often depend on computationally intensive cross-attention mechanisms and insufficiently model intra- and inter-modal feature relationships, resulting in imprecise feature alignment and limited discriminative representation. To address these challenges, we propose DiffPixelFormer, a differential pixel-aware Transformer for RGB-D indoor scene segmentation that simultaneously enhances intra-modal representations and models inter-modal interactions. At its core, the Intra-Inter Modal Interaction Block (IIMIB) captures intra-modal long-range dependencies via self-attention and models inter-modal interactions with the Differential-Shared Inter-Modal (DSIM) module to disentangle modality-specific and shared cues, enabling fine-grained, pixel-level cross-modal alignment. Furthermore, a dynamic fusion strategy balances modality contributions and fully exploits RGB-D information according to scene characteristics. Extensive experiments on the SUN RGB-D and NYUDv2 benchmarks demonstrate that DiffPixelFormer-L achieves mIoU scores of 54.28% and 59.95%, outperforming DFormer-L by 1.78% and 2.75%, respectively. Code is available at https://github.com/gongyan1/DiffPixelFormer.
- Abstract(参考訳): 屋内セマンティックセグメンテーションはコンピュータビジョンとロボット工学の基礎であり、自律ナビゲーション、拡張現実、スマート環境などのアプリケーションをサポートする。
RGB-D融合は相補的な外観と幾何学的手がかりを利用するが、既存の手法は計算集約的な相互注意機構に依存し、不正確な特徴アライメントと限定的な識別表現をもたらす。
これらの課題に対処するために,RGB-D屋内シーンセグメンテーションのためのディファレンシャルピクセル対応トランスフォーマであるDiffPixelFormerを提案する。
イントラインターモーダル相互作用ブロック(IIMIB)は、自己アテンションを介してモーダル内の長距離依存関係をキャプチャし、ディファレンシャルシェアード・インターモーダル(DSIM)モジュールとのインターモーダル相互作用をモデル化し、モダリティ固有の共有キューを乱し、微細でピクセルレベルのクロスモーダルアライメントを可能にする。
さらに、ダイナミックフュージョン戦略は、モダリティコントリビューションのバランスをとり、シーン特性に応じてRGB-D情報をフル活用する。
SUN RGB-D と NYUDv2 のベンチマークでは、DiffPixelFormer-L が mIoU スコア 54.28% と 59.95% を達成し、それぞれ DFormer-L を 1.78% と 2.75% で上回った。
コードはhttps://github.com/gongyan1/DiffPixelFormer.comで入手できる。
関連論文リスト
- HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - DCANet: Differential Convolution Attention Network for RGB-D Semantic
Segmentation [2.2032272277334375]
深度データに対する幾何情報と局所範囲相関を考慮した画素差分畳み込みアテンション(DCA)モジュールを提案する。
DCAを拡張して、長距離コンテキスト依存を伝播する差分畳み込み注意(EDCA)をアンサンブルする。
DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバルな情報を融合するために提案されている。
論文 参考訳(メタデータ) (2022-10-13T05:17:34Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with
Transformers [36.49497394304525]
RGB-Xセマンティックセグメンテーションのための統合融合フレームワークCMXを提案する。
クロスモーダル・フィーチャー・リクティフィケーション・モジュール (CM-FRM) を用いてバイモーダル特徴を校正する。
我々はRGBを補完する5つのモード、すなわち深さ、熱、偏光、事象、LiDARを統一する。
論文 参考訳(メタデータ) (2022-03-09T16:12:08Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。