論文の概要: OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2411.03696v1
- Date: Wed, 06 Nov 2024 06:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:30.797674
- Title: OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction
- Title(参考訳): OccLoff: 3D作業予測のための最適化された特徴融合の学習
- Authors: Ji Zhang, Yiran Ding, Zixin Liu,
- Abstract要約: 3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
- 参考スコア(独自算出の注目度): 5.285847977231642
- License:
- Abstract: 3D semantic occupancy prediction is crucial for finely representing the surrounding environment, which is essential for ensuring the safety in autonomous driving. Existing fusion-based occupancy methods typically involve performing a 2D-to-3D view transformation on image features, followed by computationally intensive 3D operations to fuse these with LiDAR features, leading to high computational costs and reduced accuracy. Moreover, current research on occupancy prediction predominantly focuses on designing specific network architectures, often tailored to particular models, with limited attention given to the more fundamental aspect of semantic feature learning. This gap hinders the development of more transferable methods that could enhance the performance of various occupancy models. To address these challenges, we propose OccLoff, a framework that Learns to Optimize Feature Fusion for 3D occupancy prediction. Specifically, we introduce a sparse fusion encoder with entropy masks that directly fuses 3D and 2D features, improving model accuracy while reducing computational overhead. Additionally, we propose a transferable proxy-based loss function and an adaptive hard sample weighting algorithm, which enhance the performance of several state-of-the-art methods. Extensive evaluations on the nuScenes and SemanticKITTI benchmarks demonstrate the superiority of our framework, and ablation studies confirm the effectiveness of each proposed module.
- Abstract(参考訳): 3次元セマンティック占有予測は周囲の環境を微妙に表現するために重要であり、自動運転の安全性確保に不可欠である。
既存のフュージョンベースの占有法は、画像の特徴に対して2次元から3次元のビュー変換を行い、それに続いて計算集約的な3D操作でLiDAR特徴を融合させ、高い計算コストと精度の低下をもたらす。
さらに、占有率予測に関する現在の研究は、主に特定のネットワークアーキテクチャの設計に焦点を当てており、しばしば特定のモデルに合わせており、セマンティックな特徴学習のより基本的な側面に限定的な注意を払っている。
このギャップは、様々な占有モデルの性能を高めるために、より伝達可能な方法の開発を妨げる。
これらの課題に対処するため,我々は3次元占有予測のために特徴融合を最適化するフレームワークであるOccLoffを提案する。
具体的には,エントロピーマスクを用いたスパース融合エンコーダを導入し,直接3次元および2次元特徴を融合させ,計算オーバーヘッドを低減しつつモデルの精度を向上させる。
さらに,転送可能なプロキシベース損失関数と適応型ハードサンプル重み付けアルゴリズムを提案する。
nuScenes および SemanticKITTI ベンチマークの広範囲な評価は,我々のフレームワークの優位性を示し,それぞれのモジュールの有効性についてアブレーション研究を行った。
関連論文リスト
- FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - MR-Occ: Efficient Camera-LiDAR 3D Semantic Occupancy Prediction Using Hierarchical Multi-Resolution Voxel Representation [8.113965240054506]
MR-Occは,カメラ-LiDAR融合による3Dセマンティック占有率予測の新しい手法である。
HVFRは重要なボクセルの機能を強化し、計算コストを削減することで性能を向上させる。
MODは、センサービューから隠された領域をよりよく扱い、精度を向上させるために、Occluded'クラスを導入している。
PVF-Netは、デフォルマブルアテンション機構を通じてカメラとLiDARデータを効果的に融合するために、密度の高いLiDAR機能を利用する。
論文 参考訳(メタデータ) (2024-12-29T14:39:21Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction [5.285847977231642]
マルチセンサ融合に基づく自律走行システムの3次元占有予測
従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。
深度推定自由マルチモーダル融合フレームワークOccFusionを提案する。
論文 参考訳(メタデータ) (2024-03-08T14:07:37Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - 3D Harmonic Loss: Towards Task-consistent and Time-friendly 3D Object
Detection on Edge for Intelligent Transportation System [28.55894241049706]
本稿では,ポイントクラウドに基づく不整合予測を緩和する3次元高調波損失関数を提案する。
提案手法はベンチマークモデルよりも性能が大幅に向上する。
私たちのコードはオープンソースで公開されています。
論文 参考訳(メタデータ) (2022-11-07T10:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。