論文の概要: GTAD: Global Temporal Aggregation Denoising Learning for 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2507.20963v1
- Date: Mon, 28 Jul 2025 16:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.201048
- Title: GTAD: Global Temporal Aggregation Denoising Learning for 3D Semantic Occupancy Prediction
- Title(参考訳): GTAD:3次元セマンティック職業予測のためのグローバル時間集約型学習
- Authors: Tianhao Li, Yang Li, Mengtian Li, Yisheng Deng, Weifeng Ge,
- Abstract要約: 本稿では,全体的3次元シーン理解のためのグローバルな時間的アグリゲーション・デノベーションネットワークGTADを提案する。
提案手法では,現在時点からの局所時間的特徴と過去の時系列からのグローバル時間的特徴を集約するために,モデル内潜時分解ネットワークを用いている。
- 参考スコア(独自算出の注目度): 14.549066678968368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately perceiving dynamic environments is a fundamental task for autonomous driving and robotic systems. Existing methods inadequately utilize temporal information, relying mainly on local temporal interactions between adjacent frames and failing to leverage global sequence information effectively. To address this limitation, we investigate how to effectively aggregate global temporal features from temporal sequences, aiming to achieve occupancy representations that efficiently utilize global temporal information from historical observations. For this purpose, we propose a global temporal aggregation denoising network named GTAD, introducing a global temporal information aggregation framework as a new paradigm for holistic 3D scene understanding. Our method employs an in-model latent denoising network to aggregate local temporal features from the current moment and global temporal features from historical sequences. This approach enables the effective perception of both fine-grained temporal information from adjacent frames and global temporal patterns from historical observations. As a result, it provides a more coherent and comprehensive understanding of the environment. Extensive experiments on the nuScenes and Occ3D-nuScenes benchmark and ablation studies demonstrate the superiority of our method.
- Abstract(参考訳): ダイナミックな環境を正確に知覚することは、自律運転とロボットシステムの基本課題である。
既存の方法は時間情報を不適切に利用し、主に隣接するフレーム間の局所的な時間的相互作用に依存し、グローバルなシーケンス情報を効果的に活用できない。
この制限に対処するために、歴史的観測からグローバルな時間情報を効率的に活用する占有表現の実現を目的として、時間的シーケンスからグローバルな時間的特徴を効果的に集約する方法を検討する。
そこで本稿では,GTAD というグローバル時間情報集約ネットワークを提案し,グローバル時間情報集約フレームワークを総合的な3Dシーン理解のための新しいパラダイムとして導入する。
提案手法では,現在時点からの局所時間的特徴と過去の時系列からのグローバル時間的特徴を集約するために,モデル内潜時分解ネットワークを用いている。
このアプローチは、隣接するフレームからの微細な時間情報と、歴史的な観測から得られたグローバルな時間パターンの両方を効果的に認識することを可能にする。
結果として、環境をより一貫した、包括的な理解を提供する。
nuScenes と Occ3D-nuScenes のベンチマークおよびアブレーションによる大規模な実験により,本手法の優位性が確認された。
関連論文リスト
- Multivariate Long-term Time Series Forecasting with Fourier Neural Filter [55.09326865401653]
我々はFNFをバックボーンとして、DBDをアーキテクチャとして導入し、空間時間モデルのための優れた学習能力と最適な学習経路を提供する。
FNFは、局所時間領域とグローバル周波数領域の情報処理を単一のバックボーン内で統合し、空間的モデリングに自然に拡張することを示す。
論文 参考訳(メタデータ) (2025-06-10T18:40:20Z) - Mitigating Trade-off: Stream and Query-guided Aggregation for Efficient and Effective 3D Occupancy Prediction [12.064509280163502]
3Dの占有率予測は、自動運転の重要な認識課題として浮上している。
近年の研究では、過去の観測から得られた情報の統合に焦点が当てられ、予測精度が向上している。
本稿では,過去の情報をストリームベースで集約するフレームワークStreamOccを提案する。
Occ3D-nusデータセットの実験によると、StreamOccはリアルタイム設定で最先端のパフォーマンスを実現し、メモリ使用量を従来の方法に比べて50%以上削減している。
論文 参考訳(メタデータ) (2025-03-28T02:05:53Z) - Dual Frequency Branch Framework with Reconstructed Sliding Windows Attention for AI-Generated Image Detection [12.523297358258345]
GAN(Generative Adversarial Networks)と拡散モデルにより、高度にリアルな合成画像の作成が可能になった。
GAN(Generative Adversarial Networks)と拡散モデルにより、高度にリアルな合成画像の作成が可能になった。
AI生成画像の検出は、重要な課題として浮上している。
論文 参考訳(メタデータ) (2025-01-25T15:53:57Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - A Generic Approach to Integrating Time into Spatial-Temporal Forecasting
via Conditional Neural Fields [1.7661845949769062]
本稿では,時間成分を予測モデルに統合する一般的な手法を提案する。
主要なアイデアは、時間成分から抽出された補助的特徴を表現するために条件付きニューラルネットワークを使用することである。
道路交通とセルラーネットワーク交通データセットの実験は,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-05-11T14:20:23Z) - STJLA: A Multi-Context Aware Spatio-Temporal Joint Linear Attention
Network for Traffic Forecasting [7.232141271583618]
非効率な時空間継手線形注意(SSTLA)と呼ばれる交通予測のための新しいディープラーニングモデルを提案する。
SSTLAは、全時間ノード間のグローバル依存を効率的に捉えるために、ジョイントグラフに線形注意を適用する。
実世界の2つの交通データセットであるイングランドとテンポラル7の実験は、我々のSTJLAが最先端のベースラインよりも9.83%と3.08%の精度でMAE測定を達成できることを示した。
論文 参考訳(メタデータ) (2021-12-04T06:39:18Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。