論文の概要: MonoLite3D: Lightweight 3D Object Properties Estimation
- arxiv url: http://arxiv.org/abs/2503.02201v1
- Date: Tue, 04 Mar 2025 02:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:03.901605
- Title: MonoLite3D: Lightweight 3D Object Properties Estimation
- Title(参考訳): MonoLite3D:軽量な3Dオブジェクト特性推定
- Authors: Ahmed El-Dawy, Amr El-Zawawi, Mohamed El-Habrouk,
- Abstract要約: 本稿では,限られたリソースを持つハードウェア環境向けに設計された組み込みデバイスフレンドリーな軽量ディープラーニング手法であるMonoLite3Dネットワークを紹介する。
MonoLite3Dネットワークは、3Dオブジェクトの複数の特性を推定することに焦点を当てた最先端技術である。
- 参考スコア(独自算出の注目度): 2.895737747670724
- License:
- Abstract: Reliable perception of the environment plays a crucial role in enabling efficient self-driving vehicles. Therefore, the perception system necessitates the acquisition of comprehensive 3D data regarding the surrounding objects within a specific time constrain, including their dimensions, spatial location and orientation. Deep learning has gained significant popularity in perception systems, enabling the conversion of image features captured by a camera into meaningful semantic information. This research paper introduces MonoLite3D network, an embedded-device friendly lightweight deep learning methodology designed for hardware environments with limited resources. MonoLite3D network is a cutting-edge technique that focuses on estimating multiple properties of 3D objects, encompassing their dimensions and spatial orientation, solely from monocular images. This approach is specifically designed to meet the requirements of resource-constrained environments, making it highly suitable for deployment on devices with limited computational capabilities. The experimental results validate the accuracy and efficiency of the proposed approach on the orientation benchmark of the KITTI dataset. It achieves an impressive score of 82.27% on the moderate class and 69.81% on the hard class, while still meeting the real-time requirements.
- Abstract(参考訳): 環境に対する信頼性の高い認識は、効率的な自動運転車の実現に重要な役割を果たす。
そのため,知覚システムは,周囲の物体に関する包括的3次元データを,その次元,空間的位置,方向を含む特定の時間的制約内で取得する必要がある。
ディープラーニングは認識システムにおいて大きな人気を集めており、カメラが捉えた画像の特徴を意味のある意味情報に変換することができる。
本研究は,限られたリソースを持つハードウェア環境向けに設計された組み込みデバイスフレンドリーな軽量ディープラーニング手法であるMonoLite3Dネットワークを紹介する。
MonoLite3Dネットワークは、3Dオブジェクトの複数の特性を推定することに焦点を当てた最先端技術である。
このアプローチは、リソース制限された環境の要件を満たすように設計されており、計算能力に制限のあるデバイスへの展開に非常に適している。
実験結果は,KITTIデータセットの配向ベンチマークにおける提案手法の精度と効率を検証した。
中流階級では82.27%、ハードクラスでは69.81%という印象的な成績を収める一方で、リアルタイムの要求を満たしている。
関連論文リスト
- Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - OccupancyDETR: Using DETR for Mixed Dense-sparse 3D Occupancy Prediction [10.87136340580404]
視覚に基づく3Dセマンティック占有感は、自動運転車を含むロボティクスにとって重要な技術である。
本稿では,DTRのような物体検出技術を用いた3次元意味的占有認識手法OccupancyDETRを提案する。
提案手法は, 効率と精度のバランスをとっており, より高速な推測時間, リソース消費の低減, 小型物体検出の性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-15T16:06:23Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - High-level camera-LiDAR fusion for 3D object detection with machine
learning [0.0]
本稿では,自律運転などの応用において重要な3次元物体検出問題に取り組む。
モノクロカメラとLiDARデータを組み合わせた機械学習パイプラインを使用して、動くプラットフォームの周囲の3D空間内の車両を検出する。
本結果は,検証セットに対して効率よく精度の高い推定を行い,全体の精度は87.1%となった。
論文 参考訳(メタデータ) (2021-05-24T01:57:34Z) - Analysis of voxel-based 3D object detection methods efficiency for
real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。
実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。
この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文 参考訳(メタデータ) (2021-05-21T12:40:59Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Real-time 3D object proposal generation and classification under limited
processing resources [1.6242924916178285]
本稿では,3次元提案生成と分類による効率的な検出手法を提案する。
実験により, 点雲からのリアルタイム3次元物体検出手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-03-24T05:36:53Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。