論文の概要: Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski
Engine and Knowledge Distillation Methods
- arxiv url: http://arxiv.org/abs/2305.03188v1
- Date: Thu, 4 May 2023 22:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:56:29.931899
- Title: Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski
Engine and Knowledge Distillation Methods
- Title(参考訳): ミンコフスキーエンジンを用いた3次元セマンティックセマンティックセグメンテーションの小型モデルと知識蒸留法
- Authors: Alen Adamyan and Erik Harutyunyan
- Abstract要約: 本稿では, 知識蒸留技術, 特に3次元深層学習におけるスパーステンソルを応用して, 性能を維持しつつ, モデルサイズを小さくする手法を提案する。
我々は,異なるスパース畳み込みNNの最先端モデルの性能をシミュレートするために,標準的な手法や様々な損失の組み合わせを含む異なる損失関数を分析し,目的を定めている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are various optimization techniques in the realm of 3D, including point
cloud-based approaches that use mesh, texture, and voxels which optimize how
you store, and how do calculate in 3D. These techniques employ methods such as
feed-forward networks, 3D convolutions, graph neural networks, transformers,
and sparse tensors. However, the field of 3D is one of the most computationally
expensive fields, and these methods have yet to achieve their full potential
due to their large capacity, complexity, and computation limits. This paper
proposes the application of knowledge distillation techniques, especially for
sparse tensors in 3D deep learning, to reduce model sizes while maintaining
performance. We analyze and purpose different loss functions, including
standard methods and combinations of various losses, to simulate the
performance of state-of-the-art models of different Sparse Convolutional NNs.
Our experiments are done on the standard ScanNet V2 dataset, and we achieved
around 2.6\% mIoU difference with a 4 times smaller model and around 8\% with a
16 times smaller model on the latest state-of-the-art spacio-temporal convents
based models.
- Abstract(参考訳): 3Dの領域には、メッシュやテクスチャを使ったポイントクラウドベースのアプローチ、保存方法を最適化するボクセル、3Dでの計算方法など、さまざまな最適化テクニックがある。
これらの手法は、フィードフォワードネットワーク、3次元畳み込み、グラフニューラルネットワーク、トランスフォーマー、スパーステンソルなどの手法を用いる。
しかし、3Dの分野は計算コストが最も高い分野の1つであり、これらの手法はキャパシティ、複雑性、計算能力の限界のため、その潜在能力を十分に達成できていない。
本稿では,特に3次元深層学習における疎テンソルに対する知識蒸留法を適用し,性能を維持しつつモデルサイズを削減することを提案する。
本研究では,標準的手法と各種損失の組み合わせを含む異なる損失関数を解析・利用し,ばらばらな畳み込みnnの最先端モデルの性能をシミュレーションする。
実験は標準のScanNet V2データセット上で行われ、4倍のモデルで約2.6\% mIoUの差を、最新の最先端の時空間修道院モデルで約16倍のモデルで約8\%の差を達成しました。
関連論文リスト
- Geometry-Informed Neural Operator for Large-Scale 3D PDEs [76.06115572844882]
大規模偏微分方程式の解演算子を学習するために,幾何インフォームド・ニューラル演算子(GINO)を提案する。
我々はGINOを訓練し、わずか500点のデータポイントで車両表面の圧力を予測することに成功した。
論文 参考訳(メタデータ) (2023-09-01T16:59:21Z) - V4D: Voxel for 4D Novel View Synthesis [23.713080194908745]
本稿では,V4Dと略される3次元ボクセルによる4次元神経放射場をモデル化する手法を提案する。
提案したLUTsベースの改良モジュールは,計算コストの少ない性能向上を実現する。
計算負荷を無視して性能向上を実現する4次元データに対して,より効率的な条件付き位置符号化を提案する。
論文 参考訳(メタデータ) (2022-05-28T04:45:07Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Fast mesh denoising with data driven normal filtering using deep
variational autoencoders [6.25118865553438]
本研究では,高密度3次元走査型産業モデルに対する高速で頑健な復調法を提案する。
提案手法は条件付き変分オートエンコーダを用いて顔正規化を効果的にフィルタする。
1e4面以上の3Dモデルでは、提示されたパイプラインは等価な再構成誤差を持つメソッドの2倍高速である。
論文 参考訳(メタデータ) (2021-11-24T20:25:15Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Improved Brain Age Estimation with Slice-based Set Networks [18.272915375351914]
本稿では,脳波予測のための新しいアーキテクチャを提案する。
提案アーキテクチャは, ディープ2D-CNNモデルを用いて, それぞれの2次元スライスをMRIで符号化することによって機能する。
次に、セットネットワークまたは置換不変層を用いて、これらの2Dスライス符号化の情報を組み合わせる。
英国のBiobankデータセットを用いたBrainAGE予測問題の実験では、置換不変層を持つモデルは、他の最先端のアプローチと比較して、より高速にトレーニングし、より良い予測を提供することが示された。
論文 参考訳(メタデータ) (2021-02-08T18:54:15Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z) - Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。
ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。
Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文 参考訳(メタデータ) (2020-11-03T02:57:01Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。