論文の概要: TARDIS STRIDE: A Spatio-Temporal Road Image Dataset for Exploration and Autonomy
- arxiv url: http://arxiv.org/abs/2506.11302v1
- Date: Thu, 12 Jun 2025 21:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.584169
- Title: TARDIS STRIDE: A Spatio-Temporal Road Image Dataset for Exploration and Autonomy
- Title(参考訳): TARDIS STRIDE: 探索と自律のための時空間道路画像データセット
- Authors: Héctor Carrión, Yutong Bai, Víctor A. Hernández Castro, Kishan Panaganti, Ayush Zenith, Matthew Trang, Tony Zhang, Pietro Perona, Jitendra Malik,
- Abstract要約: 本研究では,360度パノラマ画像を相互接続した観測,状態,行動ノードに変換する方法を示す。
我々は、このデータセットをトランスフォーマーベースの生成ワールドモデルであるTARDISを介してベンチマークする。
我々は、制御可能な画像合成、命令追従、自律的自己制御、最先端のジオレファレンスなど、さまざまなエージェントタスクにおいて、堅牢な性能を示す。
- 参考スコア(独自算出の注目度): 44.85881816317044
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: World models aim to simulate environments and enable effective agent behavior. However, modeling real-world environments presents unique challenges as they dynamically change across both space and, crucially, time. To capture these composed dynamics, we introduce a Spatio-Temporal Road Image Dataset for Exploration (STRIDE) permuting 360-degree panoramic imagery into rich interconnected observation, state and action nodes. Leveraging this structure, we can simultaneously model the relationship between egocentric views, positional coordinates, and movement commands across both space and time. We benchmark this dataset via TARDIS, a transformer-based generative world model that integrates spatial and temporal dynamics through a unified autoregressive framework trained on STRIDE. We demonstrate robust performance across a range of agentic tasks such as controllable photorealistic image synthesis, instruction following, autonomous self-control, and state-of-the-art georeferencing. These results suggest a promising direction towards sophisticated generalist agents--capable of understanding and manipulating the spatial and temporal aspects of their material environments--with enhanced embodied reasoning capabilities. Training code, datasets, and model checkpoints are made available at https://huggingface.co/datasets/Tera-AI/STRIDE.
- Abstract(参考訳): 世界モデルは環境をシミュレートし、効果的なエージェントの振る舞いを可能にすることを目的としている。
しかし、実世界の環境をモデル化することは、空間と決定的に時間の両方を動的に変化させることによって、ユニークな課題をもたらす。
これらの合成力学を捉えるために,360度パノラマ画像を相互接続した観測,状態,行動ノードに置換した時空間道路画像データ(STRIDE)を導入する。
この構造を利用することで、エゴセントリックな視点、位置座標、空間と時間の両方にわたる移動指令の関係を同時にモデル化することができる。
我々は、STRIDEでトレーニングされた統合自己回帰フレームワークを用いて、空間的および時間的ダイナミクスを統合するトランスフォーマーベースの生成世界モデルであるTARDISを介して、このデータセットをベンチマークする。
我々は、制御可能なフォトリアリスティック画像合成、命令追従、自律的自己制御、最先端のジオレファレンスなど、さまざまなエージェントタスクにおいて、堅牢な性能を示す。
これらの結果から, 高度な一般エージェントに対する有望な方向性が示唆され, 物質環境の空間的・時間的側面の理解と操作が可能であり, 具体的推論能力の強化が期待できる。
トレーニングコード、データセット、モデルチェックポイントはhttps://huggingface.co/datasets/Tera-AI/STRIDE.orgで公開されている。
関連論文リスト
- GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.67481583744243]
実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-28T14:46:51Z) - LaM-SLidE: Latent Space Modeling of Spatial Dynamical Systems via Linked Entities [11.76748620770499]
本稿では、LaM-SLidE(リンクされたエンティティによる空間力学系のラテント空間モデリング)を提案する。
LaM-SLidEは、(1)潜在システム表現における個々のエンティティのトレーサビリティを維持すること、(2)画像およびビデオ生成における最近の進歩の効率性とスケーラビリティを活用することのギャップを埋める。
本稿では,LaM-SLidEが速度,精度,一般化性において良好に動作することを示す。
論文 参考訳(メタデータ) (2025-02-17T18:49:13Z) - TriHuman : A Real-time and Controllable Tri-plane Representation for
Detailed Human Geometry and Appearance Synthesis [76.73338151115253]
TriHumanは、人間によって調整され、変形可能で、効率的な三面体表現である。
我々は、未変形の三面体テクスチャ空間に、地球規模のサンプルを厳格にワープする。
このような三面的特徴表現が骨格運動でどのように条件付けされ、動的外観や幾何学的変化を考慮に入れられるかを示す。
論文 参考訳(メタデータ) (2023-12-08T16:40:38Z) - Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos [10.50306784245168]
ビデオから人体ポーズの形状を復元するための時間的傾向推論(STR)ネットワークを提案する。
我々のSTRは、制約のない環境で正確で空間的な動きのシーケンスを学習することを目的としている。
STRは3つのデータセットの最先端と競合し続けています。
論文 参考訳(メタデータ) (2022-10-07T16:09:07Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Tracking and Planning with Spatial World Models [17.698319441265223]
本研究では,異なる世界モデルを用いたリアルタイムナビゲーションとトラッキング手法を提案する。
画像と深度観測のみを用いて15Hzの周波数で最大92%の航法成功率を実現した。
論文 参考訳(メタデータ) (2022-01-25T14:16:46Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。