論文の概要: TFusionOcc: Student's t-Distribution Based Object-Centric Multi-Sensor Fusion Framework for 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2602.06400v1
- Date: Fri, 06 Feb 2026 05:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.246145
- Title: TFusionOcc: Student's t-Distribution Based Object-Centric Multi-Sensor Fusion Framework for 3D Occupancy Prediction
- Title(参考訳): TFusionOcc:3次元作業予測のためのT-Distributionに基づくオブジェクト中心型マルチセンサフュージョンフレームワーク
- Authors: Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall,
- Abstract要約: 本稿では,TFusionOccについて紹介する。TFusionOccは3次元セマンティック占有率を予測するためのオブジェクト中心型多センサ融合フレームワークである。
マルチステージマルチセンサ融合,学生のt-分布,T-Mixtureモデル(TMM)を活用することにより,提案手法はnuScenesベンチマークで最先端(SOTA)性能を達成した。
- 参考スコア(独自算出の注目度): 8.44168738898516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction enables autonomous vehicles (AVs) to perceive fine-grained geometric and semantic structure of their surroundings from onboard sensors, which is essential for safe decision-making and navigation. Recent models for 3D semantic occupancy prediction have successfully addressed the challenge of describing real-world objects with varied shapes and classes. However, the intermediate representations used by existing methods for 3D semantic occupancy prediction rely heavily on 3D voxel volumes or a set of 3D Gaussians, hindering the model's ability to efficiently and effectively capture fine-grained geometric details in the 3D driving environment. This paper introduces TFusionOcc, a novel object-centric multi-sensor fusion framework for predicting 3D semantic occupancy. By leveraging multi-stage multi-sensor fusion, Student's t-distribution, and the T-Mixture model (TMM), together with more geometrically flexible primitives, such as the deformable superquadric (superquadric with inverse warp), the proposed method achieved state-of-the-art (SOTA) performance on the nuScenes benchmark. In addition, extensive experiments were conducted on the nuScenes-C dataset to demonstrate the robustness of the proposed method in different camera and lidar corruption scenarios. The code will be available at: https://github.com/DanielMing123/TFusionOcc
- Abstract(参考訳): 3Dセマンティック占有予測により、自律走行車(AV)は、安全な意思決定とナビゲーションに不可欠であるオンボードセンサーから、周囲のきめ細かい幾何学的および意味的な構造を知覚することができる。
近年の3次元セマンティック占有予測モデルは,様々な形状やクラスを持つ現実世界の物体を記述するという課題に対処している。
しかし、既存の3Dセマンティック占有予測法で使われている中間表現は、3Dボクセルボリュームや3Dガウスアンのセットに大きく依存しており、モデルが3D駆動環境における精密な幾何学的詳細を効率よく効果的に捉えることを妨げている。
本稿では,TFusionOccについて紹介する。TFusionOccは3次元セマンティック占有率を予測するための,オブジェクト中心のマルチセンサ融合フレームワークである。
多段階のマルチセンサ融合、学生のt分布、T-Mixtureモデル(TMM)、変形可能なスーパークワッドリック(逆ワープ付きスーパークワッドリック)などの幾何学的に柔軟なプリミティブを活用することにより、提案手法はnuScenesベンチマークで最先端(SOTA)性能を達成した。
さらに、nuScenes-Cデータセットを用いて、異なるカメラおよびライダーの破損シナリオにおける提案手法の堅牢性を示す広範な実験を行った。
コードは以下の通り。 https://github.com/DanielMing123/TFusionOcc
関連論文リスト
- Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion [73.11061598576798]
カメラによる占有予測は、自動運転における3D知覚の主流のアプローチである。
textbfCIGOccはマルチレベル表現融合に基づく2段階の占有予測フレームワークである。
textbfCIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、変形可能なマルチレベル融合機構を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:37:33Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Large Generative Model Assisted 3D Semantic Communication [51.17527319441436]
本稿では,GAM-3DSC(Generative AI Model Assisted 3D SC)システムを提案する。
まず,ユーザ要求に基づいて3次元シナリオからキーセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを抽出する。
次に、これらの多視点画像を符号化するための適応意味圧縮モデル(ASCM)を提案する。
最後に、物理チャネルのチャネル状態情報(CSI)を推定・精査するために、条件付き生成逆数ネットワークと拡散モデル支援チャネル推定(GDCE)を設計する。
論文 参考訳(メタデータ) (2024-03-09T03:33:07Z) - OccFusion: Multi-Sensor Fusion Framework for 3D Semantic Occupancy Prediction [11.33083039877258]
本稿では,3次元占有予測のための新しいセンサ融合フレームワークであるOccFusionを紹介する。
ライダーやサラウンドビューレーダなどの付加センサの機能を統合することで、我々のフレームワークは占有率予測の精度と堅牢性を高めることができる。
論文 参考訳(メタデータ) (2024-03-03T23:46:06Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。