Fugu-MT 論文翻訳(概要): Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski Engine and Knowledge Distillation Methods

論文の概要: Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski Engine and Knowledge Distillation Methods

arxiv url: http://arxiv.org/abs/2305.03188v1
Date: Thu, 4 May 2023 22:19:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-08 15:56:29.931899
Title: Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski Engine and Knowledge Distillation Methods
Title（参考訳）: ミンコフスキーエンジンを用いた3次元セマンティックセマンティックセグメンテーションの小型モデルと知識蒸留法
Authors: Alen Adamyan and Erik Harutyunyan
Abstract要約: 本稿では, 知識蒸留技術, 特に3次元深層学習におけるスパーステンソルを応用して, 性能を維持しつつ, モデルサイズを小さくする手法を提案する。我々は,異なるスパース畳み込みNNの最先端モデルの性能をシミュレートするために,標準的な手法や様々な損失の組み合わせを含む異なる損失関数を分析し,目的を定めている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There are various optimization techniques in the realm of 3D, including point cloud-based approaches that use mesh, texture, and voxels which optimize how you store, and how do calculate in 3D. These techniques employ methods such as feed-forward networks, 3D convolutions, graph neural networks, transformers, and sparse tensors. However, the field of 3D is one of the most computationally expensive fields, and these methods have yet to achieve their full potential due to their large capacity, complexity, and computation limits. This paper proposes the application of knowledge distillation techniques, especially for sparse tensors in 3D deep learning, to reduce model sizes while maintaining performance. We analyze and purpose different loss functions, including standard methods and combinations of various losses, to simulate the performance of state-of-the-art models of different Sparse Convolutional NNs. Our experiments are done on the standard ScanNet V2 dataset, and we achieved around 2.6\% mIoU difference with a 4 times smaller model and around 8\% with a 16 times smaller model on the latest state-of-the-art spacio-temporal convents based models.
Abstract（参考訳）: 3Dの領域には、メッシュやテクスチャを使ったポイントクラウドベースのアプローチ、保存方法を最適化するボクセル、3Dでの計算方法など、さまざまな最適化テクニックがある。これらの手法は、フィードフォワードネットワーク、3次元畳み込み、グラフニューラルネットワーク、トランスフォーマー、スパーステンソルなどの手法を用いる。しかし、3Dの分野は計算コストが最も高い分野の1つであり、これらの手法はキャパシティ、複雑性、計算能力の限界のため、その潜在能力を十分に達成できていない。本稿では,特に3次元深層学習における疎テンソルに対する知識蒸留法を適用し,性能を維持しつつモデルサイズを削減することを提案する。本研究では,標準的手法と各種損失の組み合わせを含む異なる損失関数を解析・利用し,ばらばらな畳み込みnnの最先端モデルの性能をシミュレーションする。実験は標準のScanNet V2データセット上で行われ、4倍のモデルで約2.6\% mIoUの差を、最新の最先端の時空間修道院モデルで約16倍のモデルで約8\%の差を達成しました。

関連論文リスト

DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文参考訳（メタデータ） (2025-03-26T04:23:53Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
3D Shape Tokenization via Latent Flow Matching [38.28217561449967]
我々は3次元曲面を3次元の確率密度関数、すなわちp(x,y,z)をフローマッチングでモデル化する潜在3次元表現を導入する。私たちの表現は、特に機械学習モデルによる消費のために設計されており、ポイントクラウドと最小限のデータ前処理を必要としながら、構築による連続性とコンパクト性を提供します。
論文参考訳（メタデータ） (2024-12-20T07:22:41Z)
Is 3D Convolution with 5D Tensors Really Necessary for Video Analysis? [4.817356884702073]
本稿では,4次元および/または3次元テンソルのみを用いた2次元および/または1次元畳み込みを用いた3次元畳み込みブロックの実装手法を提案する。私たちのモチベーションは、5Dテンソルを用いた3Dコンボリューションが計算コストが高く、ロボットなどのリアルタイムアプリケーションで使用されるエッジデバイスではサポートされないことです。
論文参考訳（メタデータ） (2024-07-23T14:30:51Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Geometry-Informed Neural Operator for Large-Scale 3D PDEs [76.06115572844882]
大規模偏微分方程式の解演算子を学習するために,幾何インフォームド・ニューラル演算子(GINO)を提案する。我々はGINOを訓練し、わずか500点のデータポイントで車両表面の圧力を予測することに成功した。
論文参考訳（メタデータ） (2023-09-01T16:59:21Z)
V4d: voxel for 4d novel view synthesis [21.985228924523543]
我々は、V4Dと略される4次元神経放射場をモデル化するために3D Voxelを使用し、3Dvoxelは2つのフォーマットを持つ。提案した LUTs ベースの改良モジュールは,計算コストの少ない性能向上を実現する。
論文参考訳（メタデータ） (2022-05-28T04:45:07Z)
Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文参考訳（メタデータ） (2022-04-26T17:34:10Z)
Fast mesh denoising with data driven normal filtering using deep variational autoencoders [6.25118865553438]
本研究では,高密度3次元走査型産業モデルに対する高速で頑健な復調法を提案する。提案手法は条件付き変分オートエンコーダを用いて顔正規化を効果的にフィルタする。 1e4面以上の3Dモデルでは、提示されたパイプラインは等価な再構成誤差を持つメソッドの2倍高速である。
論文参考訳（メタデータ） (2021-11-24T20:25:15Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
Point Transformer for Shape Classification and Retrieval of 3D and ALS Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文参考訳（メタデータ） (2020-11-08T08:11:02Z)
Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。 Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文参考訳（メタデータ） (2020-11-03T02:57:01Z)
PerMO: Perceiving More at Once from a Single Image for Autonomous Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。我々はこれらのアルゴリズムを自律運転システムに統合した。
論文参考訳（メタデータ） (2020-07-16T05:02:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。