論文の概要: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
- arxiv url: http://arxiv.org/abs/2510.13198v1
- Date: Wed, 15 Oct 2025 06:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.527298
- Title: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
- Title(参考訳): マルチレベル表現融合による占領予測のための補完情報
- Authors: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang,
- Abstract要約: カメラによる占有予測は、自動運転における3D知覚の主流のアプローチである。
textbfCIGOccはマルチレベル表現融合に基づく2段階の占有予測フレームワークである。
textbfCIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、変形可能なマルチレベル融合機構を導入する。
- 参考スコア(独自算出の注目度): 73.11061598576798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
- Abstract(参考訳): カメラによる占有予測は、自律運転における3次元知覚の主要なアプローチであり、2次元画像から完全な3次元シーン形状とセマンティクスを推測することを目的としている。
既存のほとんどのメソッドは、軽量なバックボーンや複雑なカスケードフレームワークのような構造的な修正によってパフォーマンスを改善することに重点を置いている。
表現融合の観点から探る研究はほとんどなく、2次元画像の特徴の多様さを未利用のまま残している。
そこで我々は,多段階の表現融合に基づく2段階の占有予測フレームワークである \textbf{CIGOcc を提案する。
\textbf{CIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、これらの3つのマルチレベル特徴を融合させる変形可能な多レベル融合機構を導入する。
さらに、CIGOccはSAMから抽出した知識を取り入れ、予測精度をさらに高めている。
トレーニングコストが増加することなく、CIGOccはSemanticKITTIベンチマークで最先端のパフォーマンスを達成する。
コードは補足資料で提供され、https://github.com/VitaLemonTea1/CIGOccがリリースされる。
関連論文リスト
- SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction [8.723840755505817]
SDG-OCCと呼ばれる新しいマルチモーダル占有予測ネットワークを提案する。
ジョイントセマンティックとディープ誘導ビュー変換と、融合により占有されるアクティブ蒸留が組み込まれている。
提案手法は,Occ3D-nuScenesデータセットをリアルタイムに処理することで,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2025-07-22T23:49:40Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction [21.84680998135624]
マルチセンサー融合は3次元意味的占有予測の精度と堅牢性を著しく向上させる。
現在のアプローチは、最高のパフォーマンスを達成するために高解像度の画像と複雑なネットワークに依存している。
我々は,新しいマルチモーダル占有予測フレームワークの提案を行う。
論文 参考訳(メタデータ) (2024-09-30T05:53:31Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文 参考訳(メタデータ) (2024-04-06T09:01:19Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。