Fugu-MT 論文翻訳(概要): Regulating Intermediate 3D Features for Vision-Centric Autonomous Driving

論文の概要: Regulating Intermediate 3D Features for Vision-Centric Autonomous Driving

arxiv url: http://arxiv.org/abs/2312.11837v1
Date: Tue, 19 Dec 2023 04:09:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 17:14:01.138246
Title: Regulating Intermediate 3D Features for Vision-Centric Autonomous Driving
Title（参考訳）: 視覚中心自律運転のための中間3次元特徴の制御
Authors: Junkai Xu, Liang Peng, Haoran Cheng, Linxuan Xia, Qi Zhou, Dan Deng, Wei Qian, Wenxiao Wang, Deng Cai
Abstract要約: 本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。 Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
参考スコア（独自算出の注目度）: 26.03800936700545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-camera perception tasks have gained significant attention in the field of autonomous driving. However, existing frameworks based on Lift-Splat-Shoot (LSS) in the multi-camera setting cannot produce suitable dense 3D features due to the projection nature and uncontrollable densification process. To resolve this problem, we propose to regulate intermediate dense 3D features with the help of volume rendering. Specifically, we employ volume rendering to process the dense 3D features to obtain corresponding 2D features (e.g., depth maps, semantic maps), which are supervised by associated labels in the training. This manner regulates the generation of dense 3D features on the feature level, providing appropriate dense and unified features for multiple perception tasks. Therefore, our approach is termed Vampire, stands for "Volume rendering As Multi-camera Perception Intermediate feature REgulator". Experimental results on the Occ3D and nuScenes datasets demonstrate that Vampire facilitates fine-grained and appropriate extraction of dense 3D features, and is competitive with existing SOTA methods across diverse downstream perception tasks like 3D occupancy prediction, LiDAR segmentation and 3D objection detection, while utilizing moderate GPU resources. We provide a video demonstration in the supplementary materials and Codes are available at github.com/cskkxjk/Vampire.
Abstract（参考訳）: マルチカメラ認識タスクは自動運転の分野で大きな注目を集めている。しかし,マルチカメラ環境でのリフトプレートシュート(lss)に基づく既存のフレームワークでは,投影性や制御不能なデンシフィケーションプロセスなどにより,密集した3d特徴が得られない。この問題を解決するために,ボリュームレンダリングを用いて,中間密度の3次元特徴量を制御することを提案する。具体的には、ボリュームレンダリングを用いて密度の高い3d特徴を処理し、トレーニングで関連するラベルによって監督される対応する2d特徴(深度マップ、意味マップなど)を得る。この方法では、機能レベルで密度の高い3d特徴の生成を規制し、複数の知覚タスクに適切な密度と統一的な特徴を提供する。したがって,本手法は Vampire と呼ばれ,"Volume rendering As Multi-camera Perception Intermediate Feature Regulator" の略である。 Occ3DとnuScenesデータセットの実験結果によると、Vampireは高密度な3D特徴のきめ細かい抽出を容易にし、3D占有率予測、LiDARセグメンテーション、および3Dオブジェクト検出など、さまざまな下流認識タスクにまたがる既存のSOTAメソッドと競合し、適度なGPUリソースを活用する。補足資料のデモビデオを提供し、github.com/cskkxjk/Vampire.comでコードを提供している。

関連論文リスト

TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [34.99141865569255]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文参考訳（メタデータ） (2024-11-22T11:35:42Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文参考訳（メタデータ） (2023-08-26T07:38:21Z)
SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。マルチカメラ画像を用いたSurroundOcc法を提案する。
論文参考訳（メタデータ） (2023-03-16T17:59:08Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。 nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文参考訳（メタデータ） (2022-06-29T07:58:39Z)
Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文参考訳（メタデータ） (2022-03-30T12:40:30Z)
3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。 2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。 3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文参考訳（メタデータ） (2020-03-18T11:35:11Z)
DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文参考訳（メタデータ） (2020-01-10T11:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。