論文の概要: Temporal Triplane Transformers as Occupancy World Models
- arxiv url: http://arxiv.org/abs/2503.07338v1
- Date: Mon, 10 Mar 2025 13:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:25.744644
- Title: Temporal Triplane Transformers as Occupancy World Models
- Title(参考訳): 業務世界モデルとしてのテンポラルトリプレーントランス
- Authors: Haoran Xu, Peixi Peng, Guang Tan, Yiqian Chang, Yisen Zhao, Yonghong Tian,
- Abstract要約: 我々はT$3$Formerと呼ばれる自動運転のための新しい4D占有型世界モデルを提案する。
T$3$Formerは、3Dのセマンティックな占有環境を効率的に圧縮するコンパクトな三面体表現を事前訓練する。
歴史的三葉機から多段階の時間運動の特徴を抽出し、次の三葉機の変化を反復的に予測するために自己回帰的アプローチを用いる。
- 参考スコア(独自算出の注目度): 39.25159533295149
- License:
- Abstract: Recent years have seen significant advances in world models, which primarily focus on learning fine-grained correlations between an agent's motion trajectory and the resulting changes in its surrounding environment. However, existing methods often struggle to capture such fine-grained correlations and achieve real-time predictions. To address this, we propose a new 4D occupancy world model for autonomous driving, termed T$^3$Former. T$^3$Former begins by pre-training a compact triplane representation that efficiently compresses the 3D semantically occupied environment. Next, T$^3$Former extracts multi-scale temporal motion features from the historical triplane and employs an autoregressive approach to iteratively predict the next triplane changes. Finally, T$^3$Former combines the triplane changes with the previous ones to decode them into future occupancy results and ego-motion trajectories. Experimental results demonstrate the superiority of T$^3$Former, achieving 1.44$\times$ faster inference speed (26 FPS), while improving the mean IoU to 36.09 and reducing the mean absolute planning error to 1.0 meters.
- Abstract(参考訳): 近年、エージェントの運動軌跡と周囲環境の変化との間の微粒な相関を学習することに焦点を当てた世界モデルが大幅に進歩している。
しかし、既存の手法はしばしばそのような微粒な相関を捉え、リアルタイムの予測を行うのに苦労する。
そこで本研究では,T$^3$Formerと呼ばれる,自動運転のための新しい4次元占有型世界モデルを提案する。
T$3$Formerは、3Dのセマンティックな占有環境を効率的に圧縮するコンパクトな三面体表現を事前訓練することから始まる。
次に、T$^3$Formerは歴史的三葉飛行機から多次元の時間運動特徴を抽出し、次の三葉飛行機の変化を反復的に予測するために自己回帰的アプローチを用いる。
最後に、T$^3$Former は三面体の変化を以前の変化と組み合わせて将来の占有結果とエゴモーション軌道にデコードする。
実験の結果、T$^3$Formerが1.44$\times$高速推論速度(26 FPS)を達成し、平均IoUを36.09に改善し、平均絶対計画誤差を1.0mに下げた。
関連論文リスト
- Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Multi-scale Temporal Fusion Transformer for Incomplete Vehicle Trajectory Prediction [23.72022120344089]
運動予測は自律運転システムにおいて重要な役割を果たす。
不完全な車両軌道予測のための新しいエンドツーエンドフレームワークを提案する。
道路交通シナリオと都市交通シナリオから得られた4つのデータセットについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2024-09-02T02:36:18Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Improving Trajectory Prediction in Dynamic Multi-Agent Environment by
Dropping Waypoints [9.385936248154987]
動作予測システムは、エージェントの将来の軌跡を予測するために、過去から空間的および時間的情報を学習する必要がある。
本稿では,軌道予測モデルのトレーニング中に時間的依存関係を明示的に組み込んだTWDを提案する。
NBA Sports VU, ETH-UCY, TrajNet++の3つのデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-29T15:48:35Z) - Graph-based Spatial Transformer with Memory Replay for Multi-future
Pedestrian Trajectory Prediction [13.466380808630188]
歴史的軌跡に基づく複数経路の予測モデルを提案する。
提案手法は,空間情報を利用するとともに,時間的に矛盾した軌道を補正することができる。
実験により,提案手法は,複数未来予測の最先端性能と,単一未来予測の競合結果が得られることを示した。
論文 参考訳(メタデータ) (2022-06-12T10:25:12Z) - SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory
Prediction [64.16212996247943]
歩行者軌道予測のためのスパースグラフ畳み込みネットワーク(SGCN)を提案する。
具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。
可視化は,歩行者の適応的相互作用とその運動特性を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:17:42Z) - A Spatio-temporal Transformer for 3D Human Motion Prediction [39.31212055504893]
本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。
実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
論文 参考訳(メタデータ) (2020-04-18T19:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。