論文の概要: FMOcc: TPV-Driven Flow Matching for 3D Occupancy Prediction with Selective State Space Model
- arxiv url: http://arxiv.org/abs/2507.02250v1
- Date: Thu, 03 Jul 2025 02:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.478635
- Title: FMOcc: TPV-Driven Flow Matching for 3D Occupancy Prediction with Selective State Space Model
- Title(参考訳): FMOcc: 選択状態空間モデルを用いた3次元運転予測のためのTPV駆動フローマッチング
- Authors: Jiangxia Chen, Tongyuan Huang, Ke Song,
- Abstract要約: 本稿では,フローマッチング選択状態空間モデルを用いた3次元3次元占有予測システムFMOccを提案する。
Occ3D-nuScenesバリデーションで43.1%のRayIoUと39.8%のmIoU,5.4G推論メモリと330ms推論時間でOpenOcc上で42.6%のRayIoUを達成した。
- 参考スコア(独自算出の注目度): 1.3220884102442592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction plays a pivotal role in autonomous driving. However, inherent limitations of fewframe images and redundancy in 3D space compromise prediction accuracy for occluded and distant scenes. Existing methods enhance performance by fusing historical frame data, which need additional data and significant computational resources. To address these issues, this paper propose FMOcc, a Tri-perspective View (TPV) refinement occupancy network with flow matching selective state space model for few-frame 3D occupancy prediction. Firstly, to generate missing features, we designed a feature refinement module based on a flow matching model, which is called Flow Matching SSM module (FMSSM). Furthermore, by designing the TPV SSM layer and Plane Selective SSM (PS3M), we selectively filter TPV features to reduce the impact of air voxels on non-air voxels, thereby enhancing the overall efficiency of the model and prediction capability for distant scenes. Finally, we design the Mask Training (MT) method to enhance the robustness of FMOcc and address the issue of sensor data loss. Experimental results on the Occ3D-nuScenes and OpenOcc datasets show that our FMOcc outperforms existing state-of-theart methods. Our FMOcc with two frame input achieves notable scores of 43.1% RayIoU and 39.8% mIoU on Occ3D-nuScenes validation, 42.6% RayIoU on OpenOcc with 5.4 G inference memory and 330ms inference time.
- Abstract(参考訳): 3Dセマンティック占有予測は、自律運転において重要な役割を果たす。
しかし、3次元空間妥協予測の精度は, フレーム画像に固有の制約と冗長性がある。
既存の手法は、追加のデータと重要な計算資源を必要とする歴史的なフレームデータを融合することで、パフォーマンスを向上させる。
これらの問題に対処するために,フローマッチング選択状態空間モデルを用いたFMOccを提案する。
まず,フローマッチングモデルに基づく機能改善モジュールを設計し,フローマッチングSSMモジュール(FMSSM)と呼ぶ。
さらに、TPV SSM層とPlane Selective SSM(PS3M)を設計することにより、TPV特性を選択的にフィルタリングし、空気ボクセルの非空気ボクセルへの影響を低減し、モデル全体の効率と遠景の予測能力を向上する。
最後に、FMOccの堅牢性を高め、センサデータ損失の問題に対処するために、マスクトレーニング(MT)法を設計する。
Occ3D-nuScenesとOpenOccデータセットの実験結果は、FMOccが既存の最先端手法よりも優れていることを示している。
Occ3D-nuScenesバリデーションで43.1%のRayIoUと39.8%のmIoU,5.4G推論メモリと330ms推論時間でOpenOcc上で42.6%のRayIoUを達成した。
関連論文リスト
- MR-Occ: Efficient Camera-LiDAR 3D Semantic Occupancy Prediction Using Hierarchical Multi-Resolution Voxel Representation [8.113965240054506]
MR-Occは,カメラ-LiDAR融合による3Dセマンティック占有率予測の新しい手法である。
HVFRは重要なボクセルの機能を強化し、計算コストを削減することで性能を向上させる。
MODは、センサービューから隠された領域をよりよく扱い、精度を向上させるために、Occluded'クラスを導入している。
PVF-Netは、デフォルマブルアテンション機構を通じてカメラとLiDARデータを効果的に融合するために、密度の高いLiDAR機能を利用する。
論文 参考訳(メタデータ) (2024-12-29T14:39:21Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。
本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - Object Detection in Thermal Images Using Deep Learning for Unmanned
Aerial Vehicles [0.9208007322096533]
本研究は,無人航空機が収集した熱画像中の微小物体と微小物体を認識可能なニューラルネットワークモデルを提案する。
背骨はYOLOv5の構造に基づいて開発され、最後にトランスフォーマーエンコーダが使用される。
ネックは、スライドウインドウと変圧器とを組み合わせたBI−FPNブロックを備え、予測ヘッドに入力された情報を増加させる。
論文 参考訳(メタデータ) (2024-02-13T06:40:55Z) - DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Diffusion Model [20.15214479105187]
拡散確率モデルを用いた不確実性を考慮したシーンフロー推定ネットワーク(DifFlow3D)を提案する。
提案手法は,KITTIデータセット上での前例のないミリレベルの精度(EPE3Dで0.0078m)を達成する。
論文 参考訳(メタデータ) (2023-11-29T08:56:24Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。