論文の概要: DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2309.09668v1
- Date: Mon, 18 Sep 2023 11:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:03:37.569165
- Title: DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation
- Title(参考訳): dformer: 意味セグメンテーションのためのrgbd表現学習の再考
- Authors: Bowen Yin, Xuying Zhang, Zhongyu Li, Li Liu, Ming-Ming Cheng, Qibin
Hou
- Abstract要約: RGB-Dセグメンテーションタスクの転送可能な表現を学習する新しいフレームワークであるDFormerを提案する。
DFormerはRGB-Dブロックのシーケンスで構成されており、RGBと深度情報の両方を符号化するために調整されている。
我々はImageNet-1Kから画像深度ペアを使用してバックボーンを事前訓練するため、DFormerにはRGB-D表現をエンコードする能力がある。
- 参考スコア(独自算出の注目度): 76.81628995237058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DFormer, a novel RGB-D pretraining framework to learn transferable
representations for RGB-D segmentation tasks. DFormer has two new key
innovations: 1) Unlike previous works that aim to encode RGB features,DFormer
comprises a sequence of RGB-D blocks, which are tailored for encoding both RGB
and depth information through a novel building block design; 2) We pre-train
the backbone using image-depth pairs from ImageNet-1K, and thus the DFormer is
endowed with the capacity to encode RGB-D representations. It avoids the
mismatched encoding of the 3D geometry relationships in depth maps by RGB
pre-trained backbones, which widely lies in existing methods but has not been
resolved. We fine-tune the pre-trained DFormer on two popular RGB-D tasks,
i.e., RGB-D semantic segmentation and RGB-D salient object detection, with a
lightweight decoder head. Experimental results show that our DFormer achieves
new state-of-the-art performance on these two tasks with less than half of the
computational cost of the current best methods on two RGB-D segmentation
datasets and five RGB-D saliency datasets. Our code is available at:
https://github.com/VCIP-RGBD/DFormer.
- Abstract(参考訳): 本稿では,新しいRGB-D事前学習フレームワークであるDFormerについて述べる。
dformerには2つの新しいイノベーションがあります
1) 従来のRGB機能をエンコードする作業とは異なり、DFormerは、新しいビルディングブロック設計により、RGBと深度情報の両方をエンコードするためのRGB-Dブロックのシーケンスで構成されている。
2)ImageNet-1Kから画像深度ペアを用いてバックボーンを事前トレーニングするため,DFormerにはRGB-D表現をエンコードする能力がある。
RGB事前学習したバックボーンによる深度マップの3次元形状関係のミスマッチ符号化を回避し、既存の手法に広く適用されているが解決されていない。
rgb-d セマンティクスセグメンテーションと rgb-d salient object detection という2つの一般的な rgb-d タスクに対して,プリトレーニングされた dformer を軽量デコーダヘッドで微調整した。
実験の結果,DFormerは2つのRGB-Dセグメンテーションデータセットと5つのRGB-Dサリエンシデータセットの計算コストの半分以下で,これらの2つのタスクに対して新たな最先端性能を実現することがわかった。
私たちのコードは、https://github.com/VCIP-RGBD/DFormer.comで利用可能です。
関連論文リスト
- PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised
RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。
提案手法は,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T08:13:46Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。