論文の概要: Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski
Engine and Knowledge Distillation Methods
- arxiv url: http://arxiv.org/abs/2305.03188v1
- Date: Thu, 4 May 2023 22:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:56:29.931899
- Title: Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski
Engine and Knowledge Distillation Methods
- Title(参考訳): ミンコフスキーエンジンを用いた3次元セマンティックセマンティックセグメンテーションの小型モデルと知識蒸留法
- Authors: Alen Adamyan and Erik Harutyunyan
- Abstract要約: 本稿では, 知識蒸留技術, 特に3次元深層学習におけるスパーステンソルを応用して, 性能を維持しつつ, モデルサイズを小さくする手法を提案する。
我々は,異なるスパース畳み込みNNの最先端モデルの性能をシミュレートするために,標準的な手法や様々な損失の組み合わせを含む異なる損失関数を分析し,目的を定めている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are various optimization techniques in the realm of 3D, including point
cloud-based approaches that use mesh, texture, and voxels which optimize how
you store, and how do calculate in 3D. These techniques employ methods such as
feed-forward networks, 3D convolutions, graph neural networks, transformers,
and sparse tensors. However, the field of 3D is one of the most computationally
expensive fields, and these methods have yet to achieve their full potential
due to their large capacity, complexity, and computation limits. This paper
proposes the application of knowledge distillation techniques, especially for
sparse tensors in 3D deep learning, to reduce model sizes while maintaining
performance. We analyze and purpose different loss functions, including
standard methods and combinations of various losses, to simulate the
performance of state-of-the-art models of different Sparse Convolutional NNs.
Our experiments are done on the standard ScanNet V2 dataset, and we achieved
around 2.6\% mIoU difference with a 4 times smaller model and around 8\% with a
16 times smaller model on the latest state-of-the-art spacio-temporal convents
based models.
- Abstract(参考訳): 3Dの領域には、メッシュやテクスチャを使ったポイントクラウドベースのアプローチ、保存方法を最適化するボクセル、3Dでの計算方法など、さまざまな最適化テクニックがある。
これらの手法は、フィードフォワードネットワーク、3次元畳み込み、グラフニューラルネットワーク、トランスフォーマー、スパーステンソルなどの手法を用いる。
しかし、3Dの分野は計算コストが最も高い分野の1つであり、これらの手法はキャパシティ、複雑性、計算能力の限界のため、その潜在能力を十分に達成できていない。
本稿では,特に3次元深層学習における疎テンソルに対する知識蒸留法を適用し,性能を維持しつつモデルサイズを削減することを提案する。
本研究では,標準的手法と各種損失の組み合わせを含む異なる損失関数を解析・利用し,ばらばらな畳み込みnnの最先端モデルの性能をシミュレーションする。
実験は標準のScanNet V2データセット上で行われ、4倍のモデルで約2.6\% mIoUの差を、最新の最先端の時空間修道院モデルで約16倍のモデルで約8\%の差を達成しました。
関連論文リスト
- Is 3D Convolution with 5D Tensors Really Necessary for Video Analysis? [4.817356884702073]
本稿では,4次元および/または3次元テンソルのみを用いた2次元および/または1次元畳み込みを用いた3次元畳み込みブロックの実装手法を提案する。
私たちのモチベーションは、5Dテンソルを用いた3Dコンボリューションが計算コストが高く、ロボットなどのリアルタイムアプリケーションで使用されるエッジデバイスではサポートされないことです。
論文 参考訳(メタデータ) (2024-07-23T14:30:51Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Geometry-Informed Neural Operator for Large-Scale 3D PDEs [76.06115572844882]
大規模偏微分方程式の解演算子を学習するために,幾何インフォームド・ニューラル演算子(GINO)を提案する。
我々はGINOを訓練し、わずか500点のデータポイントで車両表面の圧力を予測することに成功した。
論文 参考訳(メタデータ) (2023-09-01T16:59:21Z) - V4d: voxel for 4d novel view synthesis [21.985228924523543]
我々は、V4Dと略される4次元神経放射場をモデル化するために3D Voxelを使用し、3Dvoxelは2つのフォーマットを持つ。
提案した LUTs ベースの改良モジュールは,計算コストの少ない性能向上を実現する。
論文 参考訳(メタデータ) (2022-05-28T04:45:07Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Fast mesh denoising with data driven normal filtering using deep
variational autoencoders [6.25118865553438]
本研究では,高密度3次元走査型産業モデルに対する高速で頑健な復調法を提案する。
提案手法は条件付き変分オートエンコーダを用いて顔正規化を効果的にフィルタする。
1e4面以上の3Dモデルでは、提示されたパイプラインは等価な再構成誤差を持つメソッドの2倍高速である。
論文 参考訳(メタデータ) (2021-11-24T20:25:15Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z) - Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。
ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。
Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文 参考訳(メタデータ) (2020-11-03T02:57:01Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。