論文の概要: DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2309.09668v2
- Date: Wed, 7 Feb 2024 11:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:14:02.287808
- Title: DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation
- Title(参考訳): dformer: 意味セグメンテーションのためのrgbd表現学習の再考
- Authors: Bowen Yin, Xuying Zhang, Zhongyu Li, Li Liu, Ming-Ming Cheng, Qibin
Hou
- Abstract要約: DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 76.81628995237058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DFormer, a novel RGB-D pretraining framework to learn transferable
representations for RGB-D segmentation tasks. DFormer has two new key
innovations: 1) Unlike previous works that encode RGB-D information with RGB
pretrained backbone, we pretrain the backbone using image-depth pairs from
ImageNet-1K, and hence the DFormer is endowed with the capacity to encode RGB-D
representations; 2) DFormer comprises a sequence of RGB-D blocks, which are
tailored for encoding both RGB and depth information through a novel building
block design. DFormer avoids the mismatched encoding of the 3D geometry
relationships in depth maps by RGB pretrained backbones, which widely lies in
existing methods but has not been resolved. We finetune the pretrained DFormer
on two popular RGB-D tasks, i.e., RGB-D semantic segmentation and RGB-D salient
object detection, with a lightweight decoder head. Experimental results show
that our DFormer achieves new state-of-the-art performance on these two tasks
with less than half of the computational cost of the current best methods on
two RGB-D semantic segmentation datasets and five RGB-D salient object
detection datasets. Our code is available at:
https://github.com/VCIP-RGBD/DFormer.
- Abstract(参考訳): 本稿では,新しいRGB-D事前学習フレームワークであるDFormerについて述べる。
dformerには2つの新しいイノベーションがあります
1)RGB-D情報を事前訓練したバックボーンでエンコードする以前の作業とは異なり、ImageNet-1Kから画像深度ペアを使用してバックボーンを事前訓練するので、DFormerにはRGB-D表現をエンコードする能力がある。
2) DFormerは,新規なビルディングブロック設計により,RGBと深度情報の両方を符号化するためのRGB-Dブロックからなる。
DFormerは、RGB事前訓練されたバックボーンによる深度マップにおける3次元幾何学関係のミスマッチ符号化を避ける。
rgb-dセマンティクスセグメンテーションとrgb-dサルエントオブジェクト検出という2つの一般的なrgb-dタスクに対して,プリトレーニングされたdformerを軽量デコーダヘッドで微調整した。
実験の結果,2つのrgb-dセマンティクスセグメンテーションデータセットと5つのrgb-dサルエントオブジェクト検出データセットの計算コストの半分以下で,この2つのタスクで新たな最先端性能を達成できた。
私たちのコードは、https://github.com/VCIP-RGBD/DFormer.comで利用可能です。
関連論文リスト
- PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised
RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。
提案手法は,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T08:13:46Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。