Fugu-MT 論文翻訳(概要): InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction

論文の概要: InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction

arxiv url: http://arxiv.org/abs/2401.12422v2
Date: Mon, 29 Apr 2024 07:14:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 23:55:37.280204
Title: InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction
Title（参考訳）: 逆行列VT3D:3次元動作予測のための効率的な投影行列ベースアプローチ
Authors: Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall,
Abstract要約: InverseMatrixVT3Dは,多視点画像特徴量を3次元特徴量に変換することで,セマンティック占有率の予測を行う。プロジェクション行列に対するスパース行列処理手法を導入し,GPUメモリ使用率を最適化する。本手法は,自動運転と道路安全に不可欠な,脆弱な道路利用者(VRU)の検出において,最高の性能を実現する。
参考スコア（独自算出の注目度）: 11.33083039877258
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper introduces InverseMatrixVT3D, an efficient method for transforming multi-view image features into 3D feature volumes for 3D semantic occupancy prediction. Existing methods for constructing 3D volumes often rely on depth estimation, device-specific operators, or transformer queries, which hinders the widespread adoption of 3D occupancy models. In contrast, our approach leverages two projection matrices to store the static mapping relationships and matrix multiplications to efficiently generate global Bird's Eye View (BEV) features and local 3D feature volumes. Specifically, we achieve this by performing matrix multiplications between multi-view image feature maps and two sparse projection matrices. We introduce a sparse matrix handling technique for the projection matrices to optimize GPU memory usage. Moreover, a global-local attention fusion module is proposed to integrate the global BEV features with the local 3D feature volumes to obtain the final 3D volume. We also employ a multi-scale supervision mechanism to enhance performance further. Extensive experiments performed on the nuScenes and SemanticKITTI datasets reveal that our approach not only stands out for its simplicity and effectiveness but also achieves the top performance in detecting vulnerable road users (VRU), crucial for autonomous driving and road safety. The code has been made available at: https://github.com/DanielMing123/InverseMatrixVT3D
Abstract（参考訳）: 本稿では,多視点画像特徴量を3次元特徴量に変換する手法であるInverseMatrixVT3Dを提案する。既存の3Dボリュームの構築方法は、しばしば深さ推定、デバイス固有の演算子、トランスフォーマークエリに依存しており、3D占有モデルの普及を妨げている。対照的に,本手法では2つのプロジェクション行列を用いて静的マッピング関係と行列乗算を保存し,グローバルバードアイビュー(BEV)機能と局所的な3次元特徴量を生成する。具体的には、マルチビュー画像特徴写像と2つのスパース投影行列の行列乗算を行うことにより、これを実現する。プロジェクション行列に対するスパース行列処理手法を導入し,GPUメモリ使用率を最適化する。さらに、グローバルなBEV特徴量とローカルな3D特徴量を統合することで、最終3Dボリュームを得るため、グローバルなローカルアテンション融合モジュールを提案する。また,性能向上のため,マルチスケールの監視機構も採用している。 nuScenesとSemanticKITTIデータセットで実施された大規模な実験により、我々のアプローチは、その単純さと有効性だけでなく、自動運転車と道路安全にとって不可欠な、脆弱な道路利用者(VRU)を検出する上で最高のパフォーマンスを達成していることが明らかとなった。コードはhttps://github.com/DanielMing123/InverseMatrixVT3Dで公開されている。

関連論文リスト

OV-MAP : Open-Vocabulary Zero-Shot 3D Instance Segmentation Map for Robots [18.200635521222267]
OV-MAPは、オブジェクト認識機能を高めるために、オープンな特徴を3Dマップに統合することで、移動ロボットのためのオープンワールド3Dマッピングの新しいアプローチである。我々は2次元マスクを3次元空間に投影するクラス非依存セグメンテーションモデルと、点雲から生の深度と合成の深度をマージして作成した補足深度画像を組み合わせた。このアプローチは、3Dマスク投票機構とともに、3D教師付きセグメンテーションモデルに頼ることなく、正確なゼロショット3Dインスタンスセグメンテーションを可能にする。
論文参考訳（メタデータ） (2025-06-13T08:49:23Z)
econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2025-04-08T13:12:31Z)
Matrix3D: Large Photogrammetry Model All-in-One [31.034664725331073]
Matrix3Dは、いくつかのフォトグラム化サブタスクを実行する統一モデルである。これには、ポーズ推定、深さ予測、ビュー合成が含まれる。マルチラウンドインタラクションによるきめ細かい制御を提供する。
論文参考訳（メタデータ） (2025-02-11T16:36:55Z)
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
Regulating Intermediate 3D Features for Vision-Centric Autonomous Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。 Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文参考訳（メタデータ） (2023-12-19T04:09:05Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction [16.66987810790077]
OccFormerは、意味的占有予測のために3Dボリュームを処理するデュアルパストランスフォーマーネットワークである。カメラが生成する3Dボクセル機能の長距離、ダイナミック、効率的なエンコーディングを実現している。
論文参考訳（メタデータ） (2023-04-11T16:15:50Z)
HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文参考訳（メタデータ） (2021-04-02T06:34:49Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)
Virtual Multi-view Fusion for 3D Semantic Segmentation [11.259694096475766]
仮想ビューにより,従来のマルチビュー手法よりも2次元セマンティックセグメンテーションネットワークを効果的に学習できることを示す。画素ごとの2次元予測を3次元面に集約すると,仮想多視点融合法により,より優れた3次元セマンティックセマンティックセマンティクス結果が得られる。
論文参考訳（メタデータ） (2020-07-26T14:46:55Z)
PerMO: Perceiving More at Once from a Single Image for Autonomous Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。我々はこれらのアルゴリズムを自律運転システムに統合した。
論文参考訳（メタデータ） (2020-07-16T05:02:45Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。