論文の概要: ESAM++: Efficient Online 3D Perception on the Edge
- arxiv url: http://arxiv.org/abs/2605.29505v1
- Date: Thu, 28 May 2026 07:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.946543
- Title: ESAM++: Efficient Online 3D Perception on the Edge
- Title(参考訳): ESAM++: エッジ上での効率的なオンライン3D知覚
- Authors: Qin Liu, Lavisha Aggarwal, Saptarashmi Bandyopadhyay, Vikas Bahirwani, Marc Niethammer, Ehsan Adeli, Andrea Colaco,
- Abstract要約: ESAM++は、GPUアクセラレーションなしでエッジデバイスに適したオンライン3Dシーン認識のための軽量でスケーラブルな代替手段である。
本手法では, ストリーミング3Dポイントクラウドから, マルチスケールの幾何学的特徴を効率的にキャプチャする3次元スパース特徴ピラミッドネットワーク(SFPN)を提案する。
提案モデルでは,ESAMの2倍のモデルサイズで最大3倍の高速化を実現し,エッジデバイスへの実用的展開を実現している。
- 参考スコア(独自算出の注目度): 33.9501271199231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online 3D scene perception in real time is essential for robotics, AR/VR, and autonomous systems, particularly in edge computing scenarios where computational resources are limited and privacy is crucial. Recent state-of-the-art methods like EmbodiedSAM (ESAM) demonstrate the promise of online 3D perception by leveraging the Segment Anything Model (SAM) for real-time, fine-grained, and generalized 3D instance segmentation. However, ESAM still relies on a computationally expensive 3D sparse UNet for point cloud feature extraction, which accounts for the majority of the 3D inference time, hindering its practicality on resource-constrained devices. In this paper, we propose ESAM++, a lightweight and scalable alternative for online 3D scene perception tailored to edge devices without GPU acceleration. Our method introduces a 3D Sparse Feature Pyramid Network (SFPN) that efficiently captures multi-scale geometric features from streaming 3D point clouds while significantly reducing computational overhead and model size. We evaluate our approach on four challenging segmentation benchmarks, namely ScanNet, ScanNet200, SceneNN, and 3RScan, demonstrating that our model achieves competitive accuracy with up to 3 times faster inference with a 2 times smaller model size compared to ESAM, enabling practical deployment on edge devices.
- Abstract(参考訳): リアルタイムのオンライン3Dシーン認識は、ロボット工学、AR/VR、自律システム、特に計算リソースが制限されプライバシが不可欠であるエッジコンピューティングシナリオにおいて不可欠である。
EmbodiedSAM (ESAM)のような最近の最先端の手法は、リアルタイム、きめ細かな3DインスタンスセグメンテーションにSegment Anything Model (SAM)を活用することで、オンライン3D知覚の可能性を実証している。
しかし、ESAMは依然として、ポイントクラウドの特徴抽出に計算コストのかかる3DスパースUNetを頼りにしており、これは3D推論時間の大部分を占めており、リソース制約のあるデバイスでの実用性を妨げている。
本稿では,GPUアクセラレーションを伴わないエッジデバイスに適したオンライン3Dシーン認識のための軽量でスケーラブルな代替手段であるESAM++を提案する。
提案手法では, ストリーミング3Dポイントクラウドからマルチスケールの幾何学的特徴を効率的に捉えつつ, 計算オーバーヘッドとモデルサイズを大幅に削減する3次元スパース特徴ピラミッドネットワーク(SFPN)を提案する。
我々は,ScanNet,ScanNet200,SceneNN,3RScanの4つの挑戦的セグメンテーションベンチマークに対するアプローチを評価し,ESAMの2倍のモデルサイズで最大3倍の高速推論で競合精度を達成し,エッジデバイスへの実用的な展開を可能にすることを実証した。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。