Fugu-MT 論文翻訳(概要): TEOcc: Radar-camera Multi-modal Occupancy Prediction via Temporal Enhancement

論文の概要: TEOcc: Radar-camera Multi-modal Occupancy Prediction via Temporal Enhancement

arxiv url: http://arxiv.org/abs/2410.11228v1
Date: Tue, 15 Oct 2024 03:20:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.591071
Title: TEOcc: Radar-camera Multi-modal Occupancy Prediction via Temporal Enhancement
Title（参考訳）: TEOcc: 時間的拡張によるレーダーカメラマルチモーダル占有予測
Authors: Zhiwei Lin, Hongbo Jin, Yongtao Wang, Yufei Wei, Nan Dong,
Abstract要約: 本稿では,TEOccと呼ばれるマルチモーダル時間拡張占有予測ネットワークを提案する。本手法は3次元物体検出における時間情報の利用の成功に着想を得たものである。実験の結果、TEOccはnuScenesベンチマークで最先端の占有率予測を達成している。
参考スコア（独自算出の注目度）: 5.860326420490923
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As a novel 3D scene representation, semantic occupancy has gained much attention in autonomous driving. However, existing occupancy prediction methods mainly focus on designing better occupancy representations, such as tri-perspective view or neural radiance fields, while ignoring the advantages of using long-temporal information. In this paper, we propose a radar-camera multi-modal temporal enhanced occupancy prediction network, dubbed TEOcc. Our method is inspired by the success of utilizing temporal information in 3D object detection. Specifically, we introduce a temporal enhancement branch to learn temporal occupancy prediction. In this branch, we randomly discard the t-k input frame of the multi-view camera and predict its 3D occupancy by long-term and short-term temporal decoders separately with the information from other adjacent frames and multi-modal inputs. Besides, to reduce computational costs and incorporate multi-modal inputs, we specially designed 3D convolutional layers for long-term and short-term temporal decoders. Furthermore, since the lightweight occupancy prediction head is a dense classification head, we propose to use a shared occupancy prediction head for the temporal enhancement and main branches. It is worth noting that the temporal enhancement branch is only performed during training and is discarded during inference. Experiment results demonstrate that TEOcc achieves state-of-the-art occupancy prediction on nuScenes benchmarks. In addition, the proposed temporal enhancement branch is a plug-and-play module that can be easily integrated into existing occupancy prediction methods to improve the performance of occupancy prediction. The code and models will be released at https://github.com/VDIGPKU/TEOcc.
Abstract（参考訳）: 新しい3Dシーンの表現として、セマンティックな占有力は自律運転において大きな注目を集めている。しかし、既存の占有予測手法は主に、長期的情報の使用の利点を無視しながら、三視的視点や神経放射野などのより良い占有表現を設計することに焦点を当てている。本稿では,TEOccと呼ばれるマルチモーダル時間拡張占有予測ネットワークを提案する。本手法は3次元物体検出における時間情報の利用の成功に着想を得たものである。具体的には、時間的占有予測を学習するための時間的エンハンスメントブランチを導入する。このブランチでは、マルチビューカメラのt-k入力フレームをランダムに破棄し、隣接する他のフレームやマルチモーダル入力からの情報とは別に、長期および短期の時間デコーダによってその3D占有率を予測する。さらに、計算コストを削減し、マルチモーダル入力を組み込むため、長期・短期の時間デコーダのための3次元畳み込み層を特別に設計した。さらに,軽量占有予測ヘッドは高密度な分類ヘッドであるため,時間的拡張と主枝の共有占有予測ヘッドを提案する。なお、時間拡張ブランチはトレーニング中にのみ実行され、推論中に破棄される点には注意が必要である。実験の結果、TEOccはnuScenesベンチマークで最先端の占有率予測を達成している。さらに,提案する時間拡張ブランチは,既存の占有予測手法に容易に組み込むことができ,占有予測の性能を向上させることができるプラグイン・アンド・プレイモジュールである。コードとモデルはhttps://github.com/VDIGPKU/TEOcc.comで公開される。

関連論文リスト

LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals [4.970345700893879]
LMPOcc(Longal Memory Prior Occupancy)は、歴史的知覚出力から派生した長期記憶の優先順位を利用する最初の3次元占有予測手法である。本研究では,長期記憶を組み込んだプラグイン・アンド・プレイアーキテクチャを導入し,グローバルな占有表現を同時に構築しながら,局所的な知覚を高める。
論文参考訳（メタデータ） (2025-04-18T09:58:48Z)
Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-18T17:59:12Z)
Learning Temporal Cues by Predicting Objects Move for Multi-camera 3D Object Detection [9.053936905556204]
本稿では,2分岐ネットワークからなるDAP (Detection After Prediction) モデルを提案する。分岐(i)から現在のオブジェクトを予測する特徴は、予測知識を伝達するために分岐(ii)に融合される。私たちのモデルはプラグイン・アンド・プレイで使用することができ、一貫したパフォーマンス向上を示します。
論文参考訳（メタデータ） (2024-04-02T02:20:47Z)
OccFlowNet: Towards Self-supervised Occupancy Estimation via Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文参考訳（メタデータ） (2024-02-20T08:04:12Z)
A Spatiotemporal Approach to Tri-Perspective Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
視覚に基づく3Dセマンティック占有予測は、LiDARベースのアプローチを好んで、ますます見落としている。本研究では、時間的コヒーレントな3Dセマンティック占有度を予測するために設計されたトランスフォーマーアーキテクチャであるS2TPVFormerを紹介する。
論文参考訳（メタデータ） (2024-01-24T20:06:59Z)
Visual Point Cloud Forecasting enables Scalable Autonomous Driving [28.376086570498952]
視覚的自律運転アプリケーションは、セマンティクス、三次元幾何学、時間情報を同時に含む機能を必要とする。我々は、下流のビジュアルエンコーダを事前訓練するための一般的なモデルViDARを提案する。実験の結果、例えば3D検出における3.1%のNDS、モーション予測における10%のエラー削減、計画における衝突率15%の削減といった下流タスクが顕著に向上した。
論文参考訳（メタデータ） (2023-12-29T15:44:13Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文参考訳（メタデータ） (2023-08-02T23:39:24Z)
ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文参考訳（メタデータ） (2022-07-15T16:57:43Z)
BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文参考訳（メタデータ） (2022-05-19T17:55:35Z)
SLPC: a VRNN-based approach for stochastic lidar prediction and completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。 VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文参考訳（メタデータ） (2021-02-19T11:56:44Z)
Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文参考訳（メタデータ） (2020-11-08T10:40:26Z)
A Spatio-temporal Transformer for 3D Human Motion Prediction [39.31212055504893]
本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
論文参考訳（メタデータ） (2020-04-18T19:49:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。