論文の概要: Gaussian Based Adaptive Multi-Modal 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2601.14448v1
- Date: Tue, 20 Jan 2026 20:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.142878
- Title: Gaussian Based Adaptive Multi-Modal 3D Semantic Occupancy Prediction
- Title(参考訳): ガウスに基づく適応型マルチモーダル3次元セマンティック動作予測
- Authors: A. Enes Doruk,
- Abstract要約: この研究は、新しい適応カメラ-LiDARマルチモーダル3D占有率予測モデルを強化する。
カメラモダリティの意味的強度とLiDARモダリティの幾何学的強度をシームレスにブリッジする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sparse object detection paradigm shift towards dense 3D semantic occupancy prediction is necessary for dealing with long-tail safety challenges for autonomous vehicles. Nonetheless, the current voxelization methods commonly suffer from excessive computation complexity demands, where the fusion process is brittle, static, and breaks down under dynamic environmental settings. To this end, this research work enhances a novel Gaussian-based adaptive camera-LiDAR multimodal 3D occupancy prediction model that seamlessly bridges the semantic strengths of camera modality with the geometric strengths of LiDAR modality through a memory-efficient 3D Gaussian model. The proposed solution has four key components: (1) LiDAR Depth Feature Aggregation (LDFA), where depth-wise deformable sampling is employed for dealing with geometric sparsity, (2) Entropy-Based Feature Smoothing, where cross-entropy is employed for handling domain-specific noise, (3) Adaptive Camera-LiDAR Fusion, where dynamic recalibration of sensor outputs is performed based on model outputs, and (4) Gauss-Mamba Head that uses Selective State Space Models for global context decoding that enjoys linear computation complexity.
- Abstract(参考訳): 自動運転車の長距離安全問題に対処するためには, 密集した3次元セマンティック占有率予測へのスパース物体検出パラダイムのシフトが必要である。
それにもかかわらず、現在のボキセル化法は、核融合プロセスが不安定で静的で、動的環境条件下で分解される、過剰な計算複雑性の要求に苦しむのが一般的である。
そこで本研究では,メモリ効率のよい3Dガウスモデルを用いて,カメラモダリティの意味的強みとLiDARモダリティの幾何学的強みをシームレスに橋渡しする,ガウス型適応カメラ-LiDARマルチモーダル3D占有予測モデルを提案する。
提案手法は,(1)LiDAR深度特徴集合(LDFA),(2)エントロピーに基づく特徴平滑化(クロスエントロピー),(3)モデル出力に基づいてセンサ出力を動的に補正する適応カメラ-LiDARフュージョン,(4)選択状態空間モデルを用いて線形計算複雑性を享受するグローバルコンテキストデコーディングを行うガウス・マンバヘッドの4つの重要な構成要素を備える。
関連論文リスト
- Adaptive Mesh-Quantization for Neural PDE Solvers [51.26961483962011]
グラフニューラルネットワークは複雑なジオメトリや境界条件に必要な不規則なメッシュを処理できるが、それでもすべてのノードで一様計算処理を適用できる。
適応メッシュ量子化(Adaptive Mesh Quantization): メッシュノード,エッジ,クラスタ特徴間の空間適応量子化であり,量子化モデルで使用されるビット幅を動的に調整する。
我々は,MP-PDEとGraphViTという2つの最先端モデルと統合して,複数のタスクのパフォーマンスを評価することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2025-11-23T14:47:24Z) - Laplacian Analysis Meets Dynamics Modelling: Gaussian Splatting for 4D Reconstruction [9.911802466255653]
本稿では,ハイブリッドな明示的関数を持つ動的3DGSフレームワークを提案する。
本手法は, 複雑な動的シーンを再構築する際の最先端性能を実証し, 再現精度を向上する。
論文 参考訳(メタデータ) (2025-08-07T01:39:29Z) - DIMM: Decoupled Multi-hierarchy Kalman Filter for 3D Object Tracking [50.038098341549095]
状態推定は、高い操作性を持つ3次元物体追跡において困難である。
本稿では,各方向の異なる動きモデルから推定される推定を効果的に組み合わせる新しいフレームワークであるDIMMを提案する。
DIMMは既存の状態推定手法のトラッキング精度を31.61%99.23%向上させる。
論文 参考訳(メタデータ) (2025-05-18T10:12:41Z) - GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention [15.890744831541452]
3Dセマンティック占有予測は、安全で信頼性の高い自動運転を実現するために重要である。
本稿では,3次元変形可能な注意力を利用したマルチモーダルガウスに基づくセマンティック占有予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T20:05:08Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - Explore the LiDAR-Camera Dynamic Adjustment Fusion for 3D Object Detection [38.809645060899065]
カメラとLiDARは、正確で堅牢な自動運転システムの情報センサーとして機能する。
これらのセンサーは、しばしば異質な性質を示し、分布のモダリティギャップをもたらす。
モーダル分布の整合と効果的なモーダル表現の学習を目的とした動的調整技術を導入する。
論文 参考訳(メタデータ) (2024-07-22T02:42:15Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - Learning Controllable Adaptive Simulation for Multi-resolution Physics [86.8993558124143]
完全深層学習に基づくサロゲートモデルとして,LAMP(Learning Controllable Adaptive Simulation for Multi- resolution Physics)を導入した。
LAMPは、前方進化を学習するためのグラフニューラルネットワーク(GNN)と、空間的洗練と粗大化のポリシーを学ぶためのGNNベースのアクター批判で構成されている。
我々は,LAMPが最先端のディープラーニングサロゲートモデルより優れており,長期予測誤差を改善するために,適応的なトレードオフ計算が可能であることを実証した。
論文 参考訳(メタデータ) (2023-05-01T23:20:27Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。