論文の概要: Inverse++: Vision-Centric 3D Semantic Occupancy Prediction Assisted with 3D Object Detection
- arxiv url: http://arxiv.org/abs/2504.04732v1
- Date: Mon, 07 Apr 2025 05:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:09:47.447173
- Title: Inverse++: Vision-Centric 3D Semantic Occupancy Prediction Assisted with 3D Object Detection
- Title(参考訳): Inverse++:3Dオブジェクト検出支援による視覚中心の3Dセマンティック動作予測
- Authors: Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall,
- Abstract要約: 3次元セマンティック占有予測は、自動運転車の周囲環境の詳細な幾何学的・意味的な情報を予測することを目的としている。
追加の3次元物体検出補助分岐を組み込んだ3次元監視信号を導入する。
IoUスコアは31.73%、mIoUスコアは20.91%である。
- 参考スコア(独自算出の注目度): 11.33083039877258
- License:
- Abstract: 3D semantic occupancy prediction aims to forecast detailed geometric and semantic information of the surrounding environment for autonomous vehicles (AVs) using onboard surround-view cameras. Existing methods primarily focus on intricate inner structure module designs to improve model performance, such as efficient feature sampling and aggregation processes or intermediate feature representation formats. In this paper, we explore multitask learning by introducing an additional 3D supervision signal by incorporating an additional 3D object detection auxiliary branch. This extra 3D supervision signal enhances the model's overall performance by strengthening the capability of the intermediate features to capture small dynamic objects in the scene, and these small dynamic objects often include vulnerable road users, i.e. bicycles, motorcycles, and pedestrians, whose detection is crucial for ensuring driving safety in autonomous vehicles. Extensive experiments conducted on the nuScenes datasets, including challenging rainy and nighttime scenarios, showcase that our approach attains state-of-the-art results, achieving an IoU score of 31.73% and a mIoU score of 20.91% and excels at detecting vulnerable road users (VRU). The code will be made available at:https://github.com/DanielMing123/Inverse++
- Abstract(参考訳): 3次元セマンティック占有予測は、車載サラウンドビューカメラを用いて、自動運転車(AV)の周囲環境の詳細な幾何学的および意味的な情報を予測することを目的としている。
既存の手法は主に、効率的な特徴サンプリングや集約プロセス、中間的な特徴表現形式といったモデル性能を改善するための複雑な内部構造モジュールの設計に焦点を当てている。
本稿では,追加の3次元オブジェクト検出補助分岐を組み込んだ3次元監視信号を導入することで,マルチタスク学習について検討する。
この余分な3D監視信号は、シーン内の小さなダイナミックな物体を捕捉する中間的な特徴の能力を強化することで、モデル全体の性能を高める。
雨と夜間のシナリオに挑戦するなど,NuScenesデータセット上で実施された大規模な実験では,我々のアプローチが最先端の結果を達成し,IoUスコアが31.73%,mIoUスコアが20.91%,脆弱な道路利用者(VRU)の検出に優れていたことが示されている。
コードは、https://github.com/DanielMing123/Inverse++で利用可能になる。
関連論文リスト
- HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective [11.841338298700421]
本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。
Rope3DとDAIR-V2X-Iデータセットを用いて実験を行い、提案アルゴリズムが車とサイクリストの両方を検知する際の性能を実証した。
論文 参考訳(メタデータ) (2024-10-10T09:37:33Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - TripletTrack: 3D Object Tracking using Triplet Embeddings and LSTM [0.0]
3Dオブジェクトトラッキングは、自動運転システムにおいて重要なタスクである。
本稿では,3次元物体追跡における3重項埋め込みと動作表現の併用について検討する。
論文 参考訳(メタデータ) (2022-10-28T15:23:50Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - High-level camera-LiDAR fusion for 3D object detection with machine
learning [0.0]
本稿では,自律運転などの応用において重要な3次元物体検出問題に取り組む。
モノクロカメラとLiDARデータを組み合わせた機械学習パイプラインを使用して、動くプラットフォームの周囲の3D空間内の車両を検出する。
本結果は,検証セットに対して効率よく精度の高い推定を行い,全体の精度は87.1%となった。
論文 参考訳(メタデータ) (2021-05-24T01:57:34Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。