論文の概要: MinkUNeXt: Point Cloud-based Large-scale Place Recognition using 3D
Sparse Convolutions
- arxiv url: http://arxiv.org/abs/2403.07593v2
- Date: Wed, 13 Mar 2024 09:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:24.901779
- Title: MinkUNeXt: Point Cloud-based Large-scale Place Recognition using 3D
Sparse Convolutions
- Title(参考訳): MinkUNeXt:3Dによるポイントクラウドによる大規模位置認識
スパース・コンボリューション
- Authors: J.J. Cabrera, A. Santo, A. Gil, C. Viegas and L. Pay\'a
- Abstract要約: MinkUNeXtは、新しい3D MinkNeXt Blockをベースとした、ポイントクラウドからの位置認識のための効率的かつ効率的なアーキテクチャである。
提案の徹底的な評価は、Oxford RobotCarとIn-houseデータセットを用いて行われている。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents MinkUNeXt, an effective and efficient architecture for
place-recognition from point clouds entirely based on the new 3D MinkNeXt
Block, a residual block composed of 3D sparse convolutions that follows the
philosophy established by recent Transformers but purely using simple 3D
convolutions. Feature extraction is performed at different scales by a U-Net
encoder-decoder network and the feature aggregation of those features into a
single descriptor is carried out by a Generalized Mean Pooling (GeM). The
proposed architecture demonstrates that it is possible to surpass the current
state-of-the-art by only relying on conventional 3D sparse convolutions without
making use of more complex and sophisticated proposals such as Transformers,
Attention-Layers or Deformable Convolutions. A thorough assessment of the
proposal has been carried out using the Oxford RobotCar and the In-house
datasets. As a result, MinkUNeXt proves to outperform other methods in the
state-of-the-art.
- Abstract(参考訳): 本稿では,新しい3次元MinkNeXtブロックをベースとした,ポイント雲からの位置認識のための効率的かつ効率的なアーキテクチャであるMinkUNeXtについて述べる。
特徴抽出は、U-Netエンコーダデコーダネットワークによって異なるスケールで行われ、それらの特徴の1つの記述子への特徴集約は、一般化平均プール(GeM)によって実行される。
提案したアーキテクチャは,トランスフォーマーやアテンション・レイヤ,デフォルタブル・コンボリューションといった,より複雑で洗練された提案を使わずに,従来の3次元スパース・コンボリューションにのみ依存することで,現在の最先端を超えることが可能であることを実証している。
提案の徹底的な評価は、Oxford RobotCarとIn-houseデータセットを用いて行われている。
その結果、MinkUNeXtは最先端の他のメソッドよりも優れていることが証明された。
関連論文リスト
- Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - Using a Waffle Iron for Automotive Point Cloud Semantic Segmentation [66.6890991207065]
スパース3D畳み込みは、ディープニューラルネットワークを構築するためのデファクトツールとなっている。
本稿では,スパース畳み込みを必要とせず,最先端の手法に到達できる方法を提案する。
このような性能のレベルは、大規模かつ高性能な3D知覚に相応しいツールに依存して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-01-24T16:10:08Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。