Fugu-MT 論文翻訳(概要): OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction

論文の概要: OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction

arxiv url: http://arxiv.org/abs/2411.03696v1
Date: Wed, 06 Nov 2024 06:34:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.873365
Title: OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction
Title（参考訳）: OccLoff: 3D作業予測のための最適化された特徴融合の学習
Authors: Ji Zhang, Yiran Ding, Zixin Liu,
Abstract要約: 3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。 OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
参考スコア（独自算出の注目度）: 5.285847977231642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D semantic occupancy prediction is crucial for finely representing the surrounding environment, which is essential for ensuring the safety in autonomous driving. Existing fusion-based occupancy methods typically involve performing a 2D-to-3D view transformation on image features, followed by computationally intensive 3D operations to fuse these with LiDAR features, leading to high computational costs and reduced accuracy. Moreover, current research on occupancy prediction predominantly focuses on designing specific network architectures, often tailored to particular models, with limited attention given to the more fundamental aspect of semantic feature learning. This gap hinders the development of more transferable methods that could enhance the performance of various occupancy models. To address these challenges, we propose OccLoff, a framework that Learns to Optimize Feature Fusion for 3D occupancy prediction. Specifically, we introduce a sparse fusion encoder with entropy masks that directly fuses 3D and 2D features, improving model accuracy while reducing computational overhead. Additionally, we propose a transferable proxy-based loss function and an adaptive hard sample weighting algorithm, which enhance the performance of several state-of-the-art methods. Extensive evaluations on the nuScenes and SemanticKITTI benchmarks demonstrate the superiority of our framework, and ablation studies confirm the effectiveness of each proposed module.
Abstract（参考訳）: 3次元セマンティック占有予測は周囲の環境を微妙に表現するために重要であり、自動運転の安全性確保に不可欠である。既存のフュージョンベースの占有法は、画像の特徴に対して2次元から3次元のビュー変換を行い、それに続いて計算集約的な3D操作でLiDAR特徴を融合させ、高い計算コストと精度の低下をもたらす。さらに、占有率予測に関する現在の研究は、主に特定のネットワークアーキテクチャの設計に焦点を当てており、しばしば特定のモデルに合わせており、セマンティックな特徴学習のより基本的な側面に限定的な注意を払っている。このギャップは、様々な占有モデルの性能を高めるために、より伝達可能な方法の開発を妨げる。これらの課題に対処するため,我々は3次元占有予測のために特徴融合を最適化するフレームワークであるOccLoffを提案する。具体的には,エントロピーマスクを用いたスパース融合エンコーダを導入し,直接3次元および2次元特徴を融合させ,計算オーバーヘッドを低減しつつモデルの精度を向上させる。さらに,転送可能なプロキシベース損失関数と適応型ハードサンプル重み付けアルゴリズムを提案する。 nuScenes および SemanticKITTI ベンチマークの広範囲な評価は,我々のフレームワークの優位性を示し,それぞれのモジュールの有効性についてアブレーション研究を行った。

関連論文リスト

Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving [27.94544631535978]
生成モデルは基礎となるデータ分布を学習し、3Dシーンを前もって組み込む。実験により,拡散に基づく生成モデルは最先端の識別的アプローチより優れていることが示された。
論文参考訳（メタデータ） (2025-05-29T05:34:22Z)
TGP: Two-modal occupancy prediction with 3D Gaussian and sparse points for 3D Environment Awareness [13.68631587423815]
3Dセマンティックな占有力は、ロボット工学と自律運転環境知覚の分野において、急速に研究の焦点となっている。既存の占有予測タスクは、voxelやポイントクラウドベースのアプローチを使用してモデル化される。本稿では空間的位置と体積構造情報のバランスをとる3次元ガウス集合とスパース点に基づく2次元モーダル予測法を提案する。
論文参考訳（メタデータ） (2025-03-13T01:35:04Z)
FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。近年の手法では、レンジビュー表現を利用して処理効率を向上している。範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文参考訳（メタデータ） (2025-02-13T12:39:26Z)
MR-Occ: Efficient Camera-LiDAR 3D Semantic Occupancy Prediction Using Hierarchical Multi-Resolution Voxel Representation [8.113965240054506]
MR-Occは,カメラ-LiDAR融合による3Dセマンティック占有率予測の新しい手法である。 HVFRは重要なボクセルの機能を強化し、計算コストを削減することで性能を向上させる。 MODは、センサービューから隠された領域をよりよく扱い、精度を向上させるために、Occluded'クラスを導入している。 PVF-Netは、デフォルマブルアテンション機構を通じてカメラとLiDARデータを効果的に融合するために、密度の高いLiDAR機能を利用する。
論文参考訳（メタデータ） (2024-12-29T14:39:21Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文参考訳（メタデータ） (2024-07-08T17:59:54Z)
DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文参考訳（メタデータ） (2024-07-02T09:33:32Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction [5.285847977231642]
マルチセンサ融合に基づく自律走行システムの3次元占有予測従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。深度推定自由マルチモーダル融合フレームワークOccFusionを提案する。
論文参考訳（メタデータ） (2024-03-08T14:07:37Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin [32.172269679513285]
FlashOCCは、高速かつメモリ効率の高い占有率予測を集約する。チャネル・ツー・ハイト変換は、BEVから出力ロジットを3次元空間に持ち上げるために導入された。その結果,従来の最先端手法よりもプラグ・アンド・プレイ・パラダイムが優れていることが実証された。
論文参考訳（メタデータ） (2023-11-18T15:28:09Z)
3D Harmonic Loss: Towards Task-consistent and Time-friendly 3D Object Detection on Edge for Intelligent Transportation System [28.55894241049706]
本稿では,ポイントクラウドに基づく不整合予測を緩和する3次元高調波損失関数を提案する。提案手法はベンチマークモデルよりも性能が大幅に向上する。私たちのコードはオープンソースで公開されています。
論文参考訳（メタデータ） (2022-11-07T10:11:48Z)
Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2022-03-29T07:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。