論文の概要: TACOcc:Target-Adaptive Cross-Modal Fusion with Volume Rendering for 3D Semantic Occupancy
- arxiv url: http://arxiv.org/abs/2505.12693v1
- Date: Mon, 19 May 2025 04:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.403194
- Title: TACOcc:Target-Adaptive Cross-Modal Fusion with Volume Rendering for 3D Semantic Occupancy
- Title(参考訳): TACOcc-Target-Adaptive Cross-Modal Fusion with Volume Rendering for 3D Semantic Occupancy
- Authors: Luyao Lei, Shuo Xu, Yifan Bai, Xing Wei,
- Abstract要約: 本稿では,3次元意味的占有予測のためのターゲットスケール適応対称検索機構を提案する。
大規模なターゲットのために地区を拡張し、コンテキスト認識を強化し、小さなターゲットのためにそれを縮小し、効率を改善し、騒音を抑える。
本稿では,3次元意味的占有予測のための適応型マルチモーダル融合フレームワークTACOccを提案する。
- 参考スコア(独自算出の注目度): 14.075911467687789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of multi-modal 3D occupancy prediction is limited by ineffective fusion, mainly due to geometry-semantics mismatch from fixed fusion strategies and surface detail loss caused by sparse, noisy annotations. The mismatch stems from the heterogeneous scale and distribution of point cloud and image features, leading to biased matching under fixed neighborhood fusion. To address this, we propose a target-scale adaptive, bidirectional symmetric retrieval mechanism. It expands the neighborhood for large targets to enhance context awareness and shrinks it for small ones to improve efficiency and suppress noise, enabling accurate cross-modal feature alignment. This mechanism explicitly establishes spatial correspondences and improves fusion accuracy. For surface detail loss, sparse labels provide limited supervision, resulting in poor predictions for small objects. We introduce an improved volume rendering pipeline based on 3D Gaussian Splatting, which takes fused features as input to render images, applies photometric consistency supervision, and jointly optimizes 2D-3D consistency. This enhances surface detail reconstruction while suppressing noise propagation. In summary, we propose TACOcc, an adaptive multi-modal fusion framework for 3D semantic occupancy prediction, enhanced by volume rendering supervision. Experiments on the nuScenes and SemanticKITTI benchmarks validate its effectiveness.
- Abstract(参考訳): マルチモーダル3次元占有予測の性能は, 固定された融合戦略による幾何学的ミスマッチや, スパース, ノイズの多いアノテーションによる表面ディテール損失などにより, 非効率な融合によって制限される。
このミスマッチは、点雲と画像の特徴の不均一なスケールと分布に起因し、固定された近傍融合下でのマッチングに偏りが生じる。
そこで本研究では,ターゲットスケール適応型双方向対称検索機構を提案する。
大きなターゲットのために地区を拡張し、コンテキスト認識を強化し、小さなターゲットのためにそれを縮小し、効率を改善し、ノイズを抑え、正確なクロスモーダルな特徴アライメントを可能にする。
この機構は空間対応を明確に確立し、融合精度を向上させる。
表面の詳細な損失に対して、スパースラベルは限定的な監視を提供し、結果として小さなオブジェクトに対する予測が不十分になる。
本稿では,3次元ガウススプラッティングに基づくボリュームレンダリングパイプラインを導入し,融合した特徴を画像描画の入力として用い,光度整合性監視を適用し,共同で2D-3D整合性を最適化する。
これにより、ノイズ伝搬を抑制しながら表面のディテール再構成が向上する。
本稿では,3次元意味的占有予測のための適応型マルチモーダル融合フレームワークTACOccを提案する。
nuScenesとSemanticKITTIベンチマークの実験は、その有効性を検証する。
関連論文リスト
- Micro-splatting: Maximizing Isotropic Constraints for Refined Optimization in 3D Gaussian Splatting [0.3749861135832072]
この研究は、高画質勾配の領域を動的に洗練する適応的な密度化戦略を実装している。
その結果、レンダリング効率を犠牲にすることなく、より密度が高くより詳細なガウス的な手段が必要とされる。
論文 参考訳(メタデータ) (2025-04-08T07:15:58Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文 参考訳(メタデータ) (2024-04-06T09:01:19Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。