Fugu-MT 論文翻訳(概要): DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation

論文の概要: DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation

arxiv url: http://arxiv.org/abs/2309.09668v2
Date: Wed, 7 Feb 2024 11:07:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 20:14:02.287808
Title: DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation
Title（参考訳）: dformer: 意味セグメンテーションのためのrgbd表現学習の再考
Authors: Bowen Yin, Xuying Zhang, Zhongyu Li, Li Liu, Ming-Ming Cheng, Qibin Hou
Abstract要約: DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。 ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。 DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 76.81628995237058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present DFormer, a novel RGB-D pretraining framework to learn transferable representations for RGB-D segmentation tasks. DFormer has two new key innovations: 1) Unlike previous works that encode RGB-D information with RGB pretrained backbone, we pretrain the backbone using image-depth pairs from ImageNet-1K, and hence the DFormer is endowed with the capacity to encode RGB-D representations; 2) DFormer comprises a sequence of RGB-D blocks, which are tailored for encoding both RGB and depth information through a novel building block design. DFormer avoids the mismatched encoding of the 3D geometry relationships in depth maps by RGB pretrained backbones, which widely lies in existing methods but has not been resolved. We finetune the pretrained DFormer on two popular RGB-D tasks, i.e., RGB-D semantic segmentation and RGB-D salient object detection, with a lightweight decoder head. Experimental results show that our DFormer achieves new state-of-the-art performance on these two tasks with less than half of the computational cost of the current best methods on two RGB-D semantic segmentation datasets and five RGB-D salient object detection datasets. Our code is available at: https://github.com/VCIP-RGBD/DFormer.
Abstract（参考訳）: 本稿では,新しいRGB-D事前学習フレームワークであるDFormerについて述べる。 dformerには2つの新しいイノベーションがあります 1)RGB-D情報を事前訓練したバックボーンでエンコードする以前の作業とは異なり、ImageNet-1Kから画像深度ペアを使用してバックボーンを事前訓練するので、DFormerにはRGB-D表現をエンコードする能力がある。 2) DFormerは,新規なビルディングブロック設計により,RGBと深度情報の両方を符号化するためのRGB-Dブロックからなる。 DFormerは、RGB事前訓練されたバックボーンによる深度マップにおける3次元幾何学関係のミスマッチ符号化を避ける。 rgb-dセマンティクスセグメンテーションとrgb-dサルエントオブジェクト検出という2つの一般的なrgb-dタスクに対して,プリトレーニングされたdformerを軽量デコーダヘッドで微調整した。実験の結果,2つのrgb-dセマンティクスセグメンテーションデータセットと5つのrgb-dサルエントオブジェクト検出データセットの計算コストの半分以下で,この2つのタスクで新たな最先端性能を達成できた。私たちのコードは、https://github.com/VCIP-RGBD/DFormer.comで利用可能です。

関連論文リスト

DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation [66.7989548848166]
既存のアプローチでは、深度マップとRGBイメージをエンコードし、それらの間に特徴融合を行い、より堅牢な予測を可能にする。我々はDFormerv2という強力なRGBDエンコーダを提案し、ニューラルネットワークで深度情報をエンコードするのではなく、深度マップを幾何先行として明示的に利用する。我々のゴールは、すべての画像パッチトークンの深さと空間距離から幾何学的手がかりを抽出し、それを用いて、自己注意における注意重みを割り当てることである。
論文参考訳（メタデータ） (2025-04-07T03:06:07Z)
PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。提案手法は,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-08-09T08:13:46Z)
Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文参考訳（メタデータ） (2022-04-14T06:57:46Z)
Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文参考訳（メタデータ） (2022-01-01T03:02:27Z)
Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文参考訳（メタデータ） (2020-08-07T10:13:05Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)
Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文参考訳（メタデータ） (2020-07-03T14:24:41Z)
Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。 5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文参考訳（メタデータ） (2020-05-30T13:40:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。