論文の概要: What Happens Next? Anticipating Future Motion by Generating Point Trajectories
- arxiv url: http://arxiv.org/abs/2509.21592v1
- Date: Thu, 25 Sep 2025 21:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.018421
- Title: What Happens Next? Anticipating Future Motion by Generating Point Trajectories
- Title(参考訳): 次に何が起こるか : 点軌道生成による将来の動きの予測
- Authors: Gabrijel Boduljak, Laurynas Karazija, Iro Laina, Christian Rupprecht, Andrea Vedaldi,
- Abstract要約: 一つの画像から動きを予測し、世界の物体がどのように動くかを予測する問題を考察する。
我々はこのタスクを,現代のビデオジェネレータのアーキテクチャを忠実に追従するモデルを用いて,高密度トラジェクトリグリッドの条件生成として定式化する。
このアプローチはシーン全体のダイナミクスと不確実性を捉え、以前の回帰器やジェネレータよりも正確で多様な予測をもたらす。
- 参考スコア(独自算出の注目度): 76.16266402727643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of forecasting motion from a single image, i.e., predicting how objects in the world are likely to move, without the ability to observe other parameters such as the object velocities or the forces applied to them. We formulate this task as conditional generation of dense trajectory grids with a model that closely follows the architecture of modern video generators but outputs motion trajectories instead of pixels. This approach captures scene-wide dynamics and uncertainty, yielding more accurate and diverse predictions than prior regressors and generators. We extensively evaluate our method on simulated data, demonstrate its effectiveness on downstream applications such as robotics, and show promising accuracy on real-world intuitive physics datasets. Although recent state-of-the-art video generators are often regarded as world models, we show that they struggle with forecasting motion from a single image, even in simple physical scenarios such as falling blocks or mechanical object interactions, despite fine-tuning on such data. We show that this limitation arises from the overhead of generating pixels rather than directly modeling motion.
- Abstract(参考訳): 我々は、物体の速度やそれらに適用される力などの他のパラメータを観測する能力なしで、世界の物体がどのように動くかを予測する、単一の画像から動きを予測する問題を考える。
我々は,このタスクを,現代のビデオジェネレータのアーキテクチャを忠実に追従するモデルを用いて,高密度トラジェクトリグリッドの条件生成として定式化し,画素の代わりに動きトラジェクトリを出力する。
このアプローチはシーン全体のダイナミクスと不確実性を捉え、以前の回帰器やジェネレータよりも正確で多様な予測をもたらす。
本手法をシミュレーションデータ上で広く評価し,ロボット工学などの下流アプリケーション上での有効性を実証し,実世界の直感的な物理データセット上で有望な精度を示す。
近年の最先端のビデオジェネレータは世界モデルと見なされることが多いが、これらのデータは微調整されているにも関わらず、落下ブロックやメカニカルオブジェクトの相互作用といった単純な物理的シナリオであっても、単一の画像から動きを予測するのに苦労している。
この制限は、運動を直接モデル化するのではなく、ピクセルを生成するオーバーヘッドから生じることを示す。
関連論文リスト
- Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Motion Modes: What Could Happen Next? [45.24111039863531]
現在のビデオ生成モデルは、しばしばカメラの動きや他のシーンの変化とオブジェクトの動きを絡ませる。
我々は、事前訓練された画像間ジェネレータの潜伏分布を探索する、トレーニング不要なアプローチであるMotion Modesを紹介する。
我々は、物体とカメラの動きを歪ませるように設計されたエネルギー関数で導かれたフロージェネレータを用いてこれを実現する。
論文 参考訳(メタデータ) (2024-11-29T01:51:08Z) - Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos [6.093379844890164]
オンライン環境での運動学観測に物理モデルを選択的に組み込む新しい手法を提案する。
リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスするカルマンフィルタを実現する。
提案手法は,物理に基づく人間のポーズ推定作業に優れ,予測力学の物理的妥当性を示す。
論文 参考訳(メタデータ) (2024-10-10T10:24:59Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。