論文の概要: Spatiotemporal Decoupling for Efficient Vision-Based Occupancy Forecasting
- arxiv url: http://arxiv.org/abs/2411.14169v1
- Date: Thu, 21 Nov 2024 14:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:58.979995
- Title: Spatiotemporal Decoupling for Efficient Vision-Based Occupancy Forecasting
- Title(参考訳): 効率的な視覚ベース職業予測のための時空間デカップリング
- Authors: Jingyi Xu, Xieyuanli Chen, Junyi Ma, Jiawei Huang, Jintao Xu, Yue Wang, Ling Pei,
- Abstract要約: 既存の3次元占有予測手法は、可動物体の空間的詳細性を予測するのに苦労する。
本稿では,このバイアスに明示的に対処し,効果的な3次元OCFを実現するための新しいビジョンベースパラダイムを提案する。
我々は,時間的に疎結合な表現で3次元OCFを実現するために,効率的なマルチヘッドネットワークネットワークであるEfficientOCFを開発した。
- 参考スコア(独自算出の注目度): 18.933451243989452
- License:
- Abstract: The task of occupancy forecasting (OCF) involves utilizing past and present perception data to predict future occupancy states of autonomous vehicle surrounding environments, which is critical for downstream tasks such as obstacle avoidance and path planning. Existing 3D OCF approaches struggle to predict plausible spatial details for movable objects and suffer from slow inference speeds due to neglecting the bias and uneven distribution of changing occupancy states in both space and time. In this paper, we propose a novel spatiotemporal decoupling vision-based paradigm to explicitly tackle the bias and achieve both effective and efficient 3D OCF. To tackle spatial bias in empty areas, we introduce a novel spatial representation that decouples the conventional dense 3D format into 2D bird's-eye view (BEV) occupancy with corresponding height values, enabling 3D OCF derived only from 2D predictions thus enhancing efficiency. To reduce temporal bias on static voxels, we design temporal decoupling to improve end-to-end OCF by temporally associating instances via predicted flows. We develop an efficient multi-head network EfficientOCF to achieve 3D OCF with our devised spatiotemporally decoupled representation. A new metric, conditional IoU (C-IoU), is also introduced to provide a robust 3D OCF performance assessment, especially in datasets with missing or incomplete annotations. The experimental results demonstrate that EfficientOCF surpasses existing baseline methods on accuracy and efficiency, achieving state-of-the-art performance with a fast inference time of 82.33ms with a single GPU. Our code will be released as open source.
- Abstract(参考訳): 占有予測(OCF)の課題は、過去と現在の知覚データを利用して、障害物回避や経路計画といった下流のタスクに欠かせない、自動運転車を取り巻く環境の将来の占有状態を予測することである。
既存の3D OCFアプローチは、移動物体の可視的空間詳細を予測するのに苦労し、空間と時間の両方における占有状態の変化のバイアスや不均一な分布を無視するため、速度の遅い推論に苦しむ。
本稿では,このバイアスに明示的に対処し,効果的かつ効率的な3D OCFを実現するために,新しい時空間デカップリング・ビジョン・ベース・パラダイムを提案する。
空き地における空間バイアスに対処するために,従来の高密度な3Dフォーマットを2次元鳥眼ビュー(BEV)に分解する空間表現を導入する。
静的なボクセルの時間的バイアスを低減するため、予測フローを介してインスタンスを時間的に関連付けることにより、時間的疎結合を設計し、エンドツーエンドのOCFを改善する。
我々は,時間空間分割表現を考案した3次元OCFを実現するために,効率的なマルチヘッドネットワークEfficientOCFを開発した。
新しいメトリックである条件付きIoU(C-IoU)も導入され、特にアノテーションの欠如や不完全なデータセットにおいて、堅牢な3D OCFパフォーマンスアセスメントを提供する。
実験の結果、EfficientOCFは精度と効率の点で既存のベースライン法を超越し、1つのGPUで82.33msの高速な推論時間で最先端の性能を達成した。
私たちのコードはオープンソースとしてリリースされます。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。
既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。
本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文 参考訳(メタデータ) (2024-03-31T17:18:57Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - FlashOcc: Fast and Memory-Efficient Occupancy Prediction via
Channel-to-Height Plugin [32.172269679513285]
FlashOCCは、高速かつメモリ効率の高い占有率予測を集約する。
チャネル・ツー・ハイト変換は、BEVから出力ロジットを3次元空間に持ち上げるために導入された。
その結果,従来の最先端手法よりもプラグ・アンド・プレイ・パラダイムが優れていることが実証された。
論文 参考訳(メタデータ) (2023-11-18T15:28:09Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。