論文の概要: Malleable 2.5D Convolution: Learning Receptive Fields along the
Depth-axis for RGB-D Scene Parsing
- arxiv url: http://arxiv.org/abs/2007.09365v1
- Date: Sat, 18 Jul 2020 08:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 05:43:22.845893
- Title: Malleable 2.5D Convolution: Learning Receptive Fields along the
Depth-axis for RGB-D Scene Parsing
- Title(参考訳): 可鍛型2.5次元畳み込み:rgb-dシーン解析のための深さ軸に沿った学習受容場
- Authors: Yajie Xing, Jingbo Wang, Gang Zeng
- Abstract要約: 本研究では, 可鍛性2.5D畳み込みと呼ばれる新しい演算子を提案し, 深度軸に沿った受容場を学習する。
本手法では,各画素の相対深度差に応じて,各画素を1つのカーネルに割り当てる。
提案したオペレータは標準的な2D機能マップ上で動作し、トレーニング済みのCNNにシームレスに組み込むことができる。
- 参考スコア(独自算出の注目度): 18.729547293510453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth data provide geometric information that can bring progress in RGB-D
scene parsing tasks. Several recent works propose RGB-D convolution operators
that construct receptive fields along the depth-axis to handle 3D neighborhood
relations between pixels. However, these methods pre-define depth receptive
fields by hyperparameters, making them rely on parameter selection. In this
paper, we propose a novel operator called malleable 2.5D convolution to learn
the receptive field along the depth-axis. A malleable 2.5D convolution has one
or more 2D convolution kernels. Our method assigns each pixel to one of the
kernels or none of them according to their relative depth differences, and the
assigning process is formulated as a differentiable form so that it can be
learnt by gradient descent. The proposed operator runs on standard 2D feature
maps and can be seamlessly incorporated into pre-trained CNNs. We conduct
extensive experiments on two challenging RGB-D semantic segmentation dataset
NYUDv2 and Cityscapes to validate the effectiveness and the generalization
ability of our method.
- Abstract(参考訳): 深度データは、rgb-dシーン解析タスクの進捗をもたらす幾何情報を提供する。
最近のいくつかの研究は、画素間の3次元近傍関係を扱うために深さ軸に沿って受容場を構築するrgb-d畳み込み演算子を提案する。
しかし、これらの手法はハイパーパラメータによって深度受容場を事前に定義し、パラメータ選択に依存する。
本稿では,深度軸に沿った受容場を学習するために,可塑性2.5D畳み込みと呼ばれる新しい演算子を提案する。
可鍛性2.5D畳み込みは、1つ以上の2D畳み込みカーネルを有する。
本手法では,各画素の相対深度差に応じて各画素を1つのカーネルに割り当てるが,その割り当て過程は勾配降下により学習できるように微分可能な形式として定式化される。
提案したオペレータは標準的な2D機能マップで動作し,事前トレーニングされたCNNにシームレスに組み込むことができる。
RGB-DセマンティックセグメンテーションデータセットNYUDv2とCityscapesの2つの挑戦的な実験を行い、本手法の有効性と一般化能力を検証した。
関連論文リスト
- Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - Pixel Difference Convolutional Network for RGB-D Semantic Segmentation [2.334574428469772]
RGB-Dセマンティックセグメンテーションは、深度データの可用性のために畳み込みニューラルネットワークによって前進することができる。
固定グリッドカーネル構造を考えると、CNNは詳細できめ細かい情報をキャプチャする能力に限られる。
本稿では,差分畳み込みネットワーク(PDCNet)を提案する。
論文 参考訳(メタデータ) (2023-02-23T12:01:22Z) - Depth-Adapted CNNs for RGB-D Semantic Segmentation [2.341385717236931]
我々は、RGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しい枠組みを提案する。
具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。
生成されたオフセットでは、基本的なCNN演算子を置き換えるために、2つの直感的で効果的な操作を導入する。
論文 参考訳(メタデータ) (2022-06-08T14:59:40Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - RGB-D Local Implicit Function for Depth Completion of Transparent
Objects [43.238923881620494]
ロボット工学における認識方法の大部分は、RGB-Dカメラが提供する深度情報を必要とする。
標準的な3Dセンサーは、屈折と光の吸収により透明な物体の深さを捉えられない。
ノイズの多いRGB-D入力を考慮し,欠損深度を完備できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:00:04Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z) - EPOS: Estimating 6D Pose of Objects with Symmetries [57.448933686429825]
1つのRGB入力から利用可能な3次元モデルを用いて、剛体物体の6次元ポーズを推定する新しい手法を提案する。
オブジェクトは、体系的な方法で対称性を許容するコンパクトな表面フラグメントによって表現される。
エンコーダデコーダネットワークを用いて,高密度サンプリング画素とフラグメントの対応性を予測する。
論文 参考訳(メタデータ) (2020-04-01T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。