論文の概要: Occupancy Learning with Spatiotemporal Memory
- arxiv url: http://arxiv.org/abs/2508.04705v1
- Date: Wed, 06 Aug 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.870811
- Title: Occupancy Learning with Spatiotemporal Memory
- Title(参考訳): 時空間記憶を用いた職業学習
- Authors: Ziyang Leng, Jiawei Yang, Wenlong Yi, Bolei Zhou,
- Abstract要約: 本稿では,時間的整合性のある3次元占有特徴を効果的に学習するシーンレベルの占有表現学習フレームワークを提案する。
提案手法は,多フレーム入力間の時間的依存性を利用して,3次元占有予測タスクの時間的表現を著しく向上させる。
- 参考スコア(独自算出の注目度): 39.41175479685905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D occupancy becomes a promising perception representation for autonomous driving to model the surrounding environment at a fine-grained scale. However, it remains challenging to efficiently aggregate 3D occupancy over time across multiple input frames due to the high processing cost and the uncertainty and dynamics of voxels. To address this issue, we propose ST-Occ, a scene-level occupancy representation learning framework that effectively learns the spatiotemporal feature with temporal consistency. ST-Occ consists of two core designs: a spatiotemporal memory that captures comprehensive historical information and stores it efficiently through a scene-level representation and a memory attention that conditions the current occupancy representation on the spatiotemporal memory with a model of uncertainty and dynamic awareness. Our method significantly enhances the spatiotemporal representation learned for 3D occupancy prediction tasks by exploiting the temporal dependency between multi-frame inputs. Experiments show that our approach outperforms the state-of-the-art methods by a margin of 3 mIoU and reduces the temporal inconsistency by 29%.
- Abstract(参考訳): 3D占有は、周囲の環境をきめ細かいスケールでモデル化する自律運転において、有望な認識表現となる。
しかし、高処理コストとボクセルの不確実性やダイナミクスのため、複数の入力フレームにまたがって3D占有時間を効率よく集約することは依然として困難である。
この問題に対処するために,時間的整合性のある時空間的特徴を効果的に学習するシーンレベルの占有度表現学習フレームワークST-Occを提案する。
ST-Occは2つのコア設計で構成されている: 包括的な歴史的情報をキャプチャし、シーンレベルの表現を通して効率的に記憶する時空間記憶と、時空間記憶における現在の占有率表現を不確実性と動的認識のモデルで条件付ける記憶注意である。
提案手法は,多フレーム入力間の時間依存性を利用して,3次元占有予測タスクの時空間表現を著しく向上させる。
実験の結果,本手法は3mIoUのマージンで最先端の手法より優れ,時間的不整合を29%低減することがわかった。
関連論文リスト
- Efficient Spatial-Temporal Modeling for Real-Time Video Analysis: A Unified Framework for Action Recognition and Object Tracking [0.0]
リアルタイムビデオ分析はコンピュータビジョンにおいて依然として難しい問題である。
本稿では,行動認識と物体追跡を同時に行うために,高度な時空間モデリング技術を活用する統合フレームワークを提案する。
提案手法は,リアルタイムの推論速度を維持しながら,標準ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T06:49:11Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - Mitigating Trade-off: Stream and Query-guided Aggregation for Efficient and Effective 3D Occupancy Prediction [12.064509280163502]
3Dの占有率予測は、自動運転の重要な認識課題として浮上している。
近年の研究では、過去の観測から得られた情報の統合に焦点が当てられ、予測精度が向上している。
本稿では,過去の情報をストリームベースで集約するフレームワークStreamOccを提案する。
Occ3D-nusデータセットの実験によると、StreamOccはリアルタイム設定で最先端のパフォーマンスを実現し、メモリ使用量を従来の方法に比べて50%以上削減している。
論文 参考訳(メタデータ) (2025-03-28T02:05:53Z) - ST-ReP: Learning Predictive Representations Efficiently for Spatial-Temporal Forecasting [7.637123047745445]
自己監督的手法は空間的時間的表現の学習にますます適応している。
現在の値再構成と将来の値予測は、事前学習フレームワークに統合される。
予測能力を高めるために,マルチタイムスケール分析を自己監督的損失に組み込む。
論文 参考訳(メタデータ) (2024-12-19T05:33:55Z) - Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。