論文の概要: LMSCNet: Lightweight Multiscale 3D Semantic Completion
- arxiv url: http://arxiv.org/abs/2008.10559v2
- Date: Sun, 25 Oct 2020 15:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 12:07:08.074396
- Title: LMSCNet: Lightweight Multiscale 3D Semantic Completion
- Title(参考訳): LMSCNet:軽量マルチスケール3Dセマンティックコンプリート
- Authors: Luis Rold\~ao, Raoul de Charette, Anne Verroust-Blondet
- Abstract要約: 本稿では,Voxelized sparse 3D LiDAR スキャンによるマルチスケール3次元シーン補完手法を提案する。
文献とは対照的に,包括的マルチスケールスキップ接続を備えた2次元UNetバックボーンを用いて特徴フローを向上する。
本手法は, セマンティック・コンプリート・コンプリート・コンプリート・コンプリート・コンプリート・コンプリート・コンプリート・コンプリート・コンプリート・コンプリート・アプリート・コンプリート・コンプリート・コンプリート・コンプリート・コンプリート・コンプリート・コンプリート・
- 参考スコア(独自算出の注目度): 13.774258153124203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new approach for multiscale 3Dsemantic scene completion from
voxelized sparse 3D LiDAR scans. As opposed to the literature, we use a 2D UNet
backbone with comprehensive multiscale skip connections to enhance feature
flow, along with 3D segmentation heads. On the SemanticKITTI benchmark, our
method performs on par on semantic completion and better on occupancy
completion than all other published methods -- while being significantly
lighter and faster. As such it provides a great performance/speed trade-off for
mobile-robotics applications. The ablation studies demonstrate our method is
robust to lower density inputs, and that it enables very high speed semantic
completion at the coarsest level. Our code is available at
https://github.com/cv-rits/LMSCNet.
- Abstract(参考訳): 本稿では,Voxelized sparse 3D LiDAR スキャンによるマルチスケール3次元シーン補完手法を提案する。
文献とは対照的に,包括的マルチスケールスキップ接続を備えた2次元UNetバックボーンを用いて特徴フローと3次元セグメンテーションヘッドを向上する。
semantickittiベンチマークでは、このメソッドはセマンティックコンプリートと同等に動作し、他のすべてのパブリッシュされたメソッドよりも高い占有率でコンプリートを実行します。
そのため、モバイルロボティクスアプリケーションにとって、優れたパフォーマンス/スピードトレードオフを提供する。
アブレーション研究は,低密度入力に対してロバストであり,最も粗いレベルでの高速セマンティクス補完を可能にすることを実証した。
私たちのコードはhttps://github.com/cv-rits/lmscnetで利用可能です。
関連論文リスト
- Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - Fully Sparse Fusion for 3D Object Detection [91.28571584038467]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文 参考訳(メタデータ) (2023-03-20T17:40:44Z) - Using a Waffle Iron for Automotive Point Cloud Semantic Segmentation [66.6890991207065]
スパース3D畳み込みは、ディープニューラルネットワークを構築するためのデファクトツールとなっている。
本稿では,スパース畳み込みを必要とせず,最先端の手法に到達できる方法を提案する。
このような性能のレベルは、大規模かつ高性能な3D知覚に相応しいツールに依存して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-01-24T16:10:08Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views [5.510992382274774]
いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
論文 参考訳(メタデータ) (2020-04-06T14:12:19Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - 3D-MiniNet: Learning a 2D Representation from Point Clouds for Fast and
Efficient 3D LIDAR Semantic Segmentation [9.581605678437032]
3D-MiniNetは、3Dと2Dの学習層を組み合わせたLIDARセマンティックセグメンテーションの新しいアプローチである。
まず,3次元データから局所的およびグローバル的情報を抽出する新しいプロジェクションにより,原点から2次元表現を学習する。
これらの2Dセマンティックラベルは、3D空間に再プロジェクションされ、後処理モジュールを通じて拡張される。
論文 参考訳(メタデータ) (2020-02-25T14:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。