論文の概要: ShapeConv: Shape-aware Convolutional Layer for Indoor RGB-D Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2108.10528v1
- Date: Tue, 24 Aug 2021 05:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:20:05.653882
- Title: ShapeConv: Shape-aware Convolutional Layer for Indoor RGB-D Semantic
Segmentation
- Title(参考訳): ShapeConv: 室内RGB-Dセマンティックセグメンテーションのための形状認識型畳み込み層
- Authors: Jinming Cao, Hanchao Leng, Dani Lischinski, Danny Cohen-Or, Changhe
Tu, Yangyan Li
- Abstract要約: 深度特徴処理のための形状認識畳み込み層(ShapeConv)を導入する。
ShapeConvはモデルに依存しないため、ほとんどのCNNに簡単に統合でき、セマンティックセグメンテーションのためにバニラ畳み込み層を置き換えることができる。
- 参考スコア(独自算出の注目度): 17.27350852396588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-D semantic segmentation has attracted increasing attention over the past
few years. Existing methods mostly employ homogeneous convolution operators to
consume the RGB and depth features, ignoring their intrinsic differences. In
fact, the RGB values capture the photometric appearance properties in the
projected image space, while the depth feature encodes both the shape of a
local geometry as well as the base (whereabout) of it in a larger context.
Compared with the base, the shape probably is more inherent and has a stronger
connection to the semantics, and thus is more critical for segmentation
accuracy. Inspired by this observation, we introduce a Shape-aware
Convolutional layer (ShapeConv) for processing the depth feature, where the
depth feature is firstly decomposed into a shape-component and a
base-component, next two learnable weights are introduced to cooperate with
them independently, and finally a convolution is applied on the re-weighted
combination of these two components. ShapeConv is model-agnostic and can be
easily integrated into most CNNs to replace vanilla convolutional layers for
semantic segmentation. Extensive experiments on three challenging indoor RGB-D
semantic segmentation benchmarks, i.e., NYU-Dv2(-13,-40), SUN RGB-D, and SID,
demonstrate the effectiveness of our ShapeConv when employing it over five
popular architectures. Moreover, the performance of CNNs with ShapeConv is
boosted without introducing any computation and memory increase in the
inference phase. The reason is that the learnt weights for balancing the
importance between the shape and base components in ShapeConv become constants
in the inference phase, and thus can be fused into the following convolution,
resulting in a network that is identical to one with vanilla convolutional
layers.
- Abstract(参考訳): RGB-Dセマンティックセグメンテーションはここ数年で注目を集めている。
既存の方法は、主にRGBと深度の特徴を消費するために同質の畳み込み演算子を使用し、固有の違いを無視している。
実際、RGB値は投影された画像空間の測光的外観特性を捉え、深度特徴は局所幾何学の形状とそれの基底(場所)をより広い文脈でエンコードする。
ベースと比較すると、形状はおそらくより固有であり、セマンティクスとより強く結びついているので、セグメンテーションの精度にとってより重要となる。
この観察に触発された形状認識畳み込み層(shapeconv)を用いて深度特徴を処理し,まず深さ特徴を形状成分と基底成分に分解し,次に学習可能な重みを2つ導入してそれぞれ独立に連携させ,最終的にこれら2成分の再重み付け結合に畳み込みを適用する。
shapeconvはモデルに依存しず、ほとんどのcnnに簡単に統合でき、セマンティクスセグメンテーションのためにバニラ畳み込み層を置き換えることができる。
屋内RGB-Dセマンティックセマンティックセグメンテーションベンチマーク(NYU-Dv2(-13,-40)、SUN RGB-D、SID)の大規模な実験は、5つのポピュラーなアーキテクチャで採用する際のShapeConvの有効性を実証している。
さらに、計算やメモリ増加を推論フェーズに導入することなく、shapeconvによるcnnの性能を向上させる。
理由は、ShapeConvにおける形状と基成分のバランスをとる学習ウェイトが、推論フェーズにおいて定数となり、次の畳み込みに融合し、バニラ畳み込み層を持つものと同一のネットワークとなるからである。
関連論文リスト
- FCDSN-DC: An Accurate and Lightweight Convolutional Neural Network for
Stereo Estimation with Depth Completion [14.876446067338406]
本研究では,立体推定のための高精度で軽量な畳み込みニューラルネットワークを提案する。
FCDSN-DCを用いた完全畳み込み変形可能な類似性ネットワーク(FCDSN-DC)と命名する。
実世界の屋内・屋外のシーン,特にミドルベリー,キッティ,ETH3Dにおいて,競争力のある結果が得られた場合の課題について検討した。
論文 参考訳(メタデータ) (2022-09-14T09:56:19Z) - Depth-Adapted CNNs for RGB-D Semantic Segmentation [2.341385717236931]
我々は、RGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しい枠組みを提案する。
具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。
生成されたオフセットでは、基本的なCNN演算子を置き換えるために、2つの直感的で効果的な操作を導入する。
論文 参考訳(メタデータ) (2022-06-08T14:59:40Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z) - DO-Conv: Depthwise Over-parameterized Convolutional Layer [66.46704754669169]
本稿では,各入力チャネルが異なる2次元カーネルに変換されるような,奥行きの畳み込みを付加した畳み込み層の拡張を提案する。
従来の畳み込み層をDO-Conv層に置き換えただけでCNNの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-22T06:57:10Z) - Shape-Oriented Convolution Neural Network for Point Cloud Analysis [59.405388577930616]
ポイントクラウドは3次元幾何学情報符号化に採用されている主要なデータ構造である。
形状指向型メッセージパッシング方式であるShapeConvを提案する。
論文 参考訳(メタデータ) (2020-04-20T16:11:51Z) - Spatial Information Guided Convolution for Real-Time RGBD Semantic
Segmentation [79.78416804260668]
本稿では,効率的なRGB機能と3次元空間情報統合を実現するための空間情報ガイドコンボリューション(S-Conv)を提案する。
S-Convは、3次元空間情報によって導かれる畳み込みカーネルのサンプリングオフセットを推測する能力を有する。
我々はさらにS-Convを空間情報ガイド畳み込みネットワーク(SGNet)と呼ばれるセグメンテーションネットワークに組み込みます。
論文 参考訳(メタデータ) (2020-04-09T13:38:05Z) - DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes [28.571946680616765]
本稿では3次元幾何データよりも深い階層的畳み込みネットワークのファミリーを提案する。
最初の型である測地的畳み込みは、メッシュ表面またはグラフ上のカーネルウェイトを定義する。
第2のタイプであるユークリッドの畳み込みは、基盤となるメッシュ構造とは独立である。
論文 参考訳(メタデータ) (2020-04-02T13:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。