論文の概要: Putting 3D Spatially Sparse Networks on a Diet
- arxiv url: http://arxiv.org/abs/2112.01316v1
- Date: Thu, 2 Dec 2021 15:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 22:15:16.394094
- Title: Putting 3D Spatially Sparse Networks on a Diet
- Title(参考訳): ダイエットに空間的にスパースな3dネットワークを配置する
- Authors: Junha Lee, Christopher Choy, Jaesik Park
- Abstract要約: 本稿では, セマンティックセグメンテーションとインスタンスセグメンテーションのためのコンパクトで空間的にスパースな3Dコンブネット(WS3-ConvNet)を提案する。
我々は、コンパクトネットワークを見つけるために、様々なネットワークプルーニング戦略を採用し、我々のWS3-ConvNetが、最小限の性能損失(2-15%の低下)を、15%少ないパラメータ(1/100の圧縮率)で達成することを示す。
最後に、WS3-ConvNetの圧縮パターンを体系的に解析し、圧縮されたネットワークに共通する興味深いスパシティパターンを示し、推論をさらに高速化する。
- 参考スコア(独自算出の注目度): 21.881294733075393
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: 3D neural networks have become prevalent for many 3D vision tasks including
object detection, segmentation, registration, and various perception tasks for
3D inputs. However, due to the sparsity and irregularity of 3D data, custom 3D
operators or network designs have been the primary focus of 3D research, while
the size of networks or efficacy of parameters has been overlooked. In this
work, we perform the first comprehensive study on the weight sparsity of
spatially sparse 3D convolutional networks and propose a compact weight-sparse
and spatially sparse 3D convnet (WS^3-ConvNet) for semantic segmentation and
instance segmentation. We employ various network pruning strategies to find
compact networks and show our WS^3-ConvNet achieves minimal loss in performance
(2.15% drop) with orders-of-magnitude smaller number of parameters (1/100
compression rate). Finally, we systematically analyze the compression patterns
of WS^3-ConvNet and show interesting emerging sparsity patterns common in our
compressed networks to further speed up inference.
- Abstract(参考訳): 3Dニューラルネットワークは、オブジェクト検出、セグメンテーション、登録、そして3D入力のための様々な知覚タスクを含む多くの3D視覚タスクで普及している。
しかし、3Dデータの空間性と不規則性のため、カスタム3D演算子やネットワーク設計は3D研究の主要な焦点であり、ネットワークのサイズやパラメータの有効性は見過ごされている。
本研究では,空間的にスパースな3D畳み込みネットワークの重み空間を包括的に検討し,セマンティックセグメンテーションとインスタンスセグメンテーションのためのコンパクトで空間的にスパースな3Dコンブネット(WS^3-ConvNet)を提案する。
我々は、コンパクトネットワークを見つけるために、様々なネットワークプルーニング戦略を採用し、WS^3-ConvNetが、桁違いのパラメータ(1/100圧縮率)で性能の最小損失(2.15%低下)を達成することを示す。
最後に、WS^3-ConvNetの圧縮パターンを体系的に解析し、圧縮ネットワークに共通する興味深い空間パターンを示し、推論をさらに高速化する。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding [40.68012530554327]
室内3Dシーン理解のための3DバックボーンであるSSTを導入する。
我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。
我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
論文 参考訳(メタデータ) (2023-04-14T02:49:08Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - HyperFlow: Representing 3D Objects as Surfaces [19.980044265074298]
本稿では,ハイパーネットを利用した新しい生成モデルを提案する。
我々は、競合するアプローチよりも質的な結果が得られる連続的なメッシュベースのオブジェクト表現を得る。
論文 参考訳(メタデータ) (2020-06-15T19:18:02Z) - Pointwise Attention-Based Atrous Convolutional Neural Networks [15.499267533387039]
多数の点を効率的に扱うために,注目度に基づくアトラス畳み込みニューラルネットワークアーキテクチャを提案する。
提案モデルは,3次元セマンティックセグメンテーションタスクにおいて,最も重要な2つの3Dポイントクラウドデータセット上で評価されている。
精度の面では最先端モデルと比較して妥当な性能を達成し、パラメータの数ははるかに少ない。
論文 参考訳(メタデータ) (2019-12-27T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。