論文の概要: Envisioning the Future, One Step at a Time
- arxiv url: http://arxiv.org/abs/2604.09527v1
- Date: Fri, 10 Apr 2026 17:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.986124
- Title: Envisioning the Future, One Step at a Time
- Title(参考訳): 未来を1つのステップで考える
- Authors: Stefan Andreas Baumann, Jannik Wiese, Tommaso Martorella, Mahdi M. Kalayeh, Björn Ommer,
- Abstract要約: 開集合将来のシーンダイナミクスはスパース点軌道上のステップワイズ推論として予測される。
我々の自己回帰拡散モデルは、短時間で局所的に予測可能な遷移を通じてこれらの軌道を前進させる。
本稿では,様々な動画をもとにしたオープンセット動作予測のベンチマークであるOWMを紹介する。
- 参考スコア(独自算出の注目度): 22.38380614056375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately anticipating how complex, diverse scenes will evolve requires models that represent uncertainty, simulate along extended interaction chains, and efficiently explore many plausible futures. Yet most existing approaches rely on dense video or latent-space prediction, expending substantial capacity on dense appearance rather than on the underlying sparse trajectories of points in the scene. This makes large-scale exploration of future hypotheses costly and limits performance when long-horizon, multi-modal motion is essential. We address this by formulating the prediction of open-set future scene dynamics as step-wise inference over sparse point trajectories. Our autoregressive diffusion model advances these trajectories through short, locally predictable transitions, explicitly modeling the growth of uncertainty over time. This dynamics-centric representation enables fast rollout of thousands of diverse futures from a single image, optionally guided by initial constraints on motion, while maintaining physical plausibility and long-range coherence. We further introduce OWM, a benchmark for open-set motion prediction based on diverse in-the-wild videos, to evaluate accuracy and variability of predicted trajectory distributions under real-world uncertainty. Our method matches or surpasses dense simulators in predictive accuracy while achieving orders-of-magnitude higher sampling speed, making open-set future prediction both scalable and practical. Project page: http://compvis.github.io/myriad.
- Abstract(参考訳): いかに複雑で多様なシーンが進化するかを正確に予測するには、不確実性を表すモデル、拡張された相互作用連鎖に沿ってシミュレートし、多くの有望な未来を効率的に探索する必要がある。
しかし、既存のほとんどのアプローチは濃密なビデオや潜時空間の予測に依存しており、背景となる粗い点の軌跡ではなく、濃密な外見にかなりの能力を持っている。
これにより、将来の仮説を大規模に探索し、長期のマルチモーダル運動が不可欠である場合に性能を制限できる。
開集合未来のシーンダイナミクスの予測をスパース点軌道上のステップワイズ推論として定式化することで、この問題に対処する。
我々の自己回帰拡散モデルは、短時間で局所的に予測可能な遷移を通じてこれらの軌道を前進させ、時間とともに不確実性の成長を明示的にモデル化する。
このダイナミックス中心の表現は、物理的妥当性と長距離コヒーレンスを維持しながら、動きに対する最初の制約によって任意に導かれる、単一の画像から何千もの多様な未来を素早くロールアウトすることができる。
さらに,実世界の不確実性の下で予測された軌跡分布の精度と変動性を評価するために,多種多様な動画に基づくオープンセット動作予測のベンチマークであるOWMを紹介する。
提案手法は,高次サンプリング速度のオーダーを達成しつつ,高密度シミュレータと予測精度を一致または超越し,拡張性と実用性の両方を両立させる。
プロジェクトページ: http://compvis.github.io/myriad.com
関連論文リスト
- Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。
我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T17:48:05Z) - State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend [3.910356300831074]
本稿では,全体の映像フレーム生成を決定論的外観予測と動き予測に分解する状態空間分解ビデオ予測モデルを提案する。
条件付きフレームから長期動作傾向を推定し,条件付きフレームとの高整合性を示す将来のフレームの生成を導く。
論文 参考訳(メタデータ) (2024-04-17T17:19:48Z) - PREF: Predictability Regularized Neural Motion Fields [68.60019434498703]
ダイナミックなシーンで3Dの動きを知ることは、多くの視覚応用にとって不可欠である。
多視点設定における全ての点の運動を推定するために神経運動場を利用する。
予測可能な動きを正規化することを提案する。
論文 参考訳(メタデータ) (2022-09-21T22:32:37Z) - Graph-based Spatial Transformer with Memory Replay for Multi-future
Pedestrian Trajectory Prediction [13.466380808630188]
歴史的軌跡に基づく複数経路の予測モデルを提案する。
提案手法は,空間情報を利用するとともに,時間的に矛盾した軌道を補正することができる。
実験により,提案手法は,複数未来予測の最先端性能と,単一未来予測の競合結果が得られることを示した。
論文 参考訳(メタデータ) (2022-06-12T10:25:12Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - StretchBEV: Stretching Future Instance Prediction Spatially and
Temporally [0.0]
自動運転車では、車を取り巻くすべてのエージェントの位置と動きから未来を予測することが、計画にとって重要な要件である。
近年,複数のカメラから知覚されるリッチな感覚情報を小型の鳥眼ビュー表現に融合させて予測を行うことにより,知覚と予測の新たな共同定式化が進んでいる。
しかし、将来の予測の質は、複数の妥当な予測のために、より長い時間的地平線に拡張しながら、時間とともに劣化する。
本研究では,将来の予測におけるこのような不確実性に時間的モデルを用いて対処する。
論文 参考訳(メタデータ) (2022-03-25T13:28:44Z) - LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving [139.33800431159446]
LookOutは、環境を共同で知覚し、センサーデータから様々な未来を予測するアプローチである。
本モデルでは,大規模自動運転データセットにおいて,より多様性があり,サンプル効率のよい動き予測を行う。
論文 参考訳(メタデータ) (2021-01-16T23:19:22Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z) - From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting [54.273455592965355]
将来の軌道の不確実性は、(a)エージェントに知られているが、モデルに未知な情報源、例えば長期目標や(b)エージェントとモデルの両方に未知な情報源、例えば他のエージェントの意図や既約乱数不確定性などである。
我々は,長期目標における多モータリティと,経路ポイントや経路における多モータリティによるアレタリック不確実性を通じて,てんかん不確かさをモデル化する。
また,この二分法を実証するために,従来の作業よりも1分間,桁長の予測地平線を有する,新しい長期軌跡予測設定を提案する。
論文 参考訳(メタデータ) (2020-12-02T21:01:29Z) - Temporally-Continuous Probabilistic Prediction using Polynomial
Trajectory Parameterization [12.896275507449936]
アクターの動作予測に一般的に使用される表現は、各アクターが個別の将来の時間ポイントで行う一連のウェイポイントである。
このアプローチは単純で柔軟であるが、中間時間ステップで非現実的な高次微分や近似誤差を示すことができる。
本稿では,軌道パラメータ化に基づく時間的連続軌道予測のための簡易かつ汎用的な表現を提案する。
論文 参考訳(メタデータ) (2020-11-01T01:51:44Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。