論文の概要: Temporal Triplane Transformers as Occupancy World Models
- arxiv url: http://arxiv.org/abs/2503.07338v2
- Date: Thu, 15 May 2025 08:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:36.137715
- Title: Temporal Triplane Transformers as Occupancy World Models
- Title(参考訳): 業務世界モデルとしてのテンポラルトリプレーントランス
- Authors: Haoran Xu, Peixi Peng, Guang Tan, Yiqian Chang, Yisen Zhao, Yonghong Tian,
- Abstract要約: T$3$Formerは、自動運転のための新しい4D占有型世界モデルである。
1.44$times$のスピードアップを実現し、平均IoUを36.09に改善し、平均絶対計画誤差を1.0mに下げる。
- 参考スコア(独自算出の注目度): 39.25159533295149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models aim to learn or construct representations of the environment that enable the prediction of future scenes, thereby supporting intelligent motion planning. However, existing models often struggle to produce fine-grained predictions and to operate in real time. In this work, we propose T$^3$Former, a novel 4D occupancy world model for autonomous driving. T$^3$Former begins by pre-training a compact {\em triplane} representation that efficiently encodes 3D occupancy. It then extracts multi-scale temporal motion features from historical triplanes and employs an autoregressive approach to iteratively predict future triplane changes. Finally, these triplane changes are combined with previous states to decode future occupancy and ego-motion trajectories. Experimental results show that T$^3$Former achieves 1.44$\times$ speedup (26 FPS), improves mean IoU to 36.09, and reduces mean absolute planning error to 1.0 meters. Demos are available in the supplementary material.
- Abstract(参考訳): 世界モデルは、将来のシーンの予測を可能にする環境の表現を学び、構築することを目的としており、それによってインテリジェントなモーションプランニングをサポートする。
しかし、既存のモデルは細かな予測やリアルタイムの運用に苦慮することが多い。
本研究では,自動運転のための新しい4D占有型世界モデルであるT$^3$Formerを提案する。
T$3$Formerは、3D占有率を効率的に符号化するコンパクトな三面体表現を事前訓練することから始まる。
その後、歴史的三葉飛行機から多スケールの時間運動の特徴を抽出し、将来の三葉飛行機の変化を反復的に予測するために自己回帰的アプローチを採用する。
最後に、これらの三面体の変化は、将来の占有とエゴ運動軌道を復号するために、以前の状態と組み合わされる。
実験の結果、T$^3$Formerは1.44$\times$ speedup (26 FPS)を達成し、平均IoUを36.09に改善し、平均絶対計画誤差を1.0mに短縮した。
デモは補足資料で見ることができる。
関連論文リスト
- LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals [4.970345700893879]
LMPOcc(Longal Memory Prior Occupancy)は、歴史的知覚出力から派生した長期記憶の優先順位を利用する最初の3次元占有予測手法である。
本研究では,長期記憶を組み込んだプラグイン・アンド・プレイアーキテクチャを導入し,グローバルな占有表現を同時に構築しながら,局所的な知覚を高める。
論文 参考訳(メタデータ) (2025-04-18T09:58:48Z) - EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation [59.33052312107478]
イベントカメラは、シーン変化に対する連続的適応ピクセルレベル応答による3次元モーション推定の可能性を提供する。
本稿では,イベント誘導パラメトリック曲線を用いた一様軌道をモデル化するイベントベースフレームワークであるEMoveについて述べる。
動作表現には,事象誘導下での空間的特徴と時間的特徴を融合する密度認識適応機構を導入する。
最終3次元運動推定は、パラメトリック軌道、流れ、深度運動場の多時間サンプリングによって達成される。
論文 参考訳(メタデータ) (2025-03-14T13:15:54Z) - Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Improving Trajectory Prediction in Dynamic Multi-Agent Environment by
Dropping Waypoints [9.385936248154987]
動作予測システムは、エージェントの将来の軌跡を予測するために、過去から空間的および時間的情報を学習する必要がある。
本稿では,軌道予測モデルのトレーニング中に時間的依存関係を明示的に組み込んだTWDを提案する。
NBA Sports VU, ETH-UCY, TrajNet++の3つのデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-29T15:48:35Z) - Graph-based Spatial Transformer with Memory Replay for Multi-future
Pedestrian Trajectory Prediction [13.466380808630188]
歴史的軌跡に基づく複数経路の予測モデルを提案する。
提案手法は,空間情報を利用するとともに,時間的に矛盾した軌道を補正することができる。
実験により,提案手法は,複数未来予測の最先端性能と,単一未来予測の競合結果が得られることを示した。
論文 参考訳(メタデータ) (2022-06-12T10:25:12Z) - A Spatio-temporal Transformer for 3D Human Motion Prediction [39.31212055504893]
本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。
実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
論文 参考訳(メタデータ) (2020-04-18T19:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。