論文の概要: VPOcc: Exploiting Vanishing Point for 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2408.03551v2
- Date: Thu, 14 Aug 2025 04:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:47.974251
- Title: VPOcc: Exploiting Vanishing Point for 3D Semantic Occupancy Prediction
- Title(参考訳): VPOcc:3Dセマンティックアクシデント予測のためのバニシングポイントの爆発
- Authors: Junsu Kim, Junhee Lee, Ukcheol Shin, Jean Oh, Kyungdon Joo,
- Abstract要約: 3Dシーンを意味的かつ空間的に理解することは、ロボットや自動運転車の安全なナビゲーションに不可欠である。
カメラベースの3Dセマンティック占有予測は、2D画像から完全なボクセルグリッドを推定する。
このタスクは本質的に2D-3Dの相違に悩まされ、カメラからの距離に応じて3D空間で同じ大きさの物体が異なる大きさの2D画像に現れる。
本稿では,2D-3Dの相違を画素レベルと特徴レベルの両方で緩和するために,消失点(VP)を利用するVPOccという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.947072696837118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 3D scenes semantically and spatially is crucial for the safe navigation of robots and autonomous vehicles, aiding obstacle avoidance and accurate trajectory planning. Camera-based 3D semantic occupancy prediction, which infers complete voxel grids from 2D images, is gaining importance in robot vision for its resource efficiency compared to 3D sensors. However, this task inherently suffers from a 2D-3D discrepancy, where objects of the same size in 3D space appear at different scales in a 2D image depending on their distance from the camera due to perspective projection. To tackle this issue, we propose a novel framework called VPOcc that leverages a vanishing point (VP) to mitigate the 2D-3D discrepancy at both the pixel and feature levels. As a pixel-level solution, we introduce a VPZoomer module, which warps images by counteracting the perspective effect using a VP-based homography transformation. In addition, as a feature-level solution, we propose a VP-guided cross-attention (VPCA) module that performs perspective-aware feature aggregation, utilizing 2D image features that are more suitable for 3D space. Lastly, we integrate two feature volumes extracted from the original and warped images to compensate for each other through a spatial volume fusion (SVF) module. By effectively incorporating VP into the network, our framework achieves improvements in both IoU and mIoU metrics on SemanticKITTI and SSCBench-KITTI360 datasets. Additional details are available at https://vision3d-lab.github.io/vpocc/.
- Abstract(参考訳): 3Dシーンを意味的かつ空間的に理解することは、ロボットや自動運転車の安全なナビゲーションに不可欠であり、障害物回避と正確な軌道計画を支援する。
2D画像から完全なボクセルグリッドを推定するカメラベースの3Dセマンティック占有予測は、3Dセンサと比較して資源効率においてロボットビジョンにおいて重要になっている。
しかし、3次元空間における同じ大きさの物体が視点投影によりカメラからの距離に応じて異なる大きさの2次元画像に現れるという2D-3Dの相違に本質的に悩まされている。
この問題に対処するために,VPOccと呼ばれる新しいフレームワークを提案する。このフレームワークは,2D-3Dの差を画素レベルと特徴レベルの両方で緩和するために,消滅点(VP)を利用する。
画素レベルの解法としてVPZoomerモジュールを導入し,VPベースのホモグラフィ変換を用いて視点効果を反作用させることにより,画像のワープを行う。
さらに,機能レベルの解決法として,3次元空間に適した2次元画像特徴を利用して視点認識機能アグリゲーションを行うVPCA(VP-guided Cross-attention)モジュールを提案する。
最後に,オリジナル画像とワープ画像から抽出した2つの特徴量を統合し,空間体積融合(SVF)モジュールを介して相互に補償する。
ネットワークにVPを効果的に組み込むことで,SemanticKITTIとSSCBench-KITTI360データセット上でのIoUとmIoUのメトリクスの改善を実現している。
詳細はhttps://vision3d-lab.github.io/vpocc/.com/で確認できる。
関連論文リスト
- ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction [11.312780421161204]
本稿では,視覚基盤モデルからの視覚的先行情報を活用して,詳細な3D占有率予測を行うViPOccを提案する。
また,効率的な実例認識光サンプリングのための意味誘導型非重複ガウス混合サンプリング器を提案する。
本実験は,3次元占有予測と深度推定の両方において,ViPOccの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-15T15:04:27Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文 参考訳(メタデータ) (2024-04-06T09:01:19Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - VPIT: Real-time Embedded Single Object 3D Tracking Using Voxel Pseudo Images [90.60881721134656]
本稿では,Voxel Pseudo Image Tracking (VPIT) という,Voxel-based 3D Single Object Tracking (3D SOT) 手法を提案する。
KITTI追跡データセットの実験は、VPITが最速の3D SOT法であり、競合的な成功と精度の値を維持することを示している。
論文 参考訳(メタデータ) (2022-06-06T14:02:06Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Object-Centric Multi-View Aggregation [86.94544275235454]
本稿では,オブジェクトのスパースなビュー集合を集約して,半単純3次元表現を容積特徴格子の形で計算する手法を提案する。
我々のアプローチの鍵となるのは、カメラのポーズを明示することなく、ビューを持ち上げることができるオブジェクト中心の標準3D座標システムである。
画素から標準座標系への対称対応マッピングの計算により、未知の領域への情報伝達がより良くなることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:38:31Z) - Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation [76.21696417873311]
3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。
CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。
本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
論文 参考訳(メタデータ) (2020-03-25T10:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。