論文の概要: Semantic Causality-Aware Vision-Based 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2509.08388v1
- Date: Wed, 10 Sep 2025 08:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.359786
- Title: Semantic Causality-Aware Vision-Based 3D Occupancy Prediction
- Title(参考訳): 意味的因果性を考慮した視覚に基づく3次元活動予測
- Authors: Dubing Chen, Huan Zheng, Yucheng Zhou, Xianfei Li, Wenlong Liao, Tao He, Pai Peng, Jianbing Shen,
- Abstract要約: 視覚に基づく3Dセマンティック占有予測は、3Dビジョンにおいて重要な課題である。
しかし、既存のメソッドは、しばしばモジュラーパイプラインに依存している。
本稿では,モジュール型2D-to-3Dトランスフォーメーションパイプラインの全体的,エンドツーエンドの監視を可能にする新たな因果損失を提案する。
- 参考スコア(独自算出の注目度): 63.752869043357585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based 3D semantic occupancy prediction is a critical task in 3D vision that integrates volumetric 3D reconstruction with semantic understanding. Existing methods, however, often rely on modular pipelines. These modules are typically optimized independently or use pre-configured inputs, leading to cascading errors. In this paper, we address this limitation by designing a novel causal loss that enables holistic, end-to-end supervision of the modular 2D-to-3D transformation pipeline. Grounded in the principle of 2D-to-3D semantic causality, this loss regulates the gradient flow from 3D voxel representations back to the 2D features. Consequently, it renders the entire pipeline differentiable, unifying the learning process and making previously non-trainable components fully learnable. Building on this principle, we propose the Semantic Causality-Aware 2D-to-3D Transformation, which comprises three components guided by our causal loss: Channel-Grouped Lifting for adaptive semantic mapping, Learnable Camera Offsets for enhanced robustness against camera perturbations, and Normalized Convolution for effective feature propagation. Extensive experiments demonstrate that our method achieves state-of-the-art performance on the Occ3D benchmark, demonstrating significant robustness to camera perturbations and improved 2D-to-3D semantic consistency.
- Abstract(参考訳): 視覚に基づく3Dセマンティック占有予測は、ボリューム3D再構成とセマンティック理解を統合した3Dビジョンにおいて重要な課題である。
しかし、既存のメソッドは、しばしばモジュラーパイプラインに依存している。
これらのモジュールは通常、独立して最適化されるか、事前設定された入力を使用し、カスケードエラーを引き起こす。
本稿では,モジュール型2D-to-3Dトランスフォーメーションパイプラインの全体的,エンドツーエンドの監視を可能にする新たな因果損失を設計することで,この制限に対処する。
2D-to-3Dセマンティック因果性の原理に基づいて、この損失は3Dボクセル表現から2D特徴への勾配流れを制御する。
その結果、パイプライン全体を差別化し、学習プロセスを統一し、それまでのトレーニング不可能なコンポーネントを完全に学習可能にする。
本原理に基づくセマンティック因果2D-to-3D変換は,適応的意味マッピングのためのチャネルグループリフティング,カメラ摂動に対する堅牢性向上のための学習可能なカメラオフセット,効果的な特徴伝達のための正規化畳み込みの3つの要素から構成される。
Occ3Dベンチマークでは, カメラの摂動に頑健で, 2次元から3次元のセマンティック一貫性が向上した。
関連論文リスト
- ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。