論文の概要: Autoregressive Flow Matching for Motion Prediction
- arxiv url: http://arxiv.org/abs/2512.22688v1
- Date: Sat, 27 Dec 2025 19:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.177439
- Title: Autoregressive Flow Matching for Motion Prediction
- Title(参考訳): 動き予測のための自己回帰フローマッチング
- Authors: Johnathan Xie, Stefan Stojanov, Cristobal Eyzaguirre, Daniel L. K. Yamins, Jiajun Wu,
- Abstract要約: 自己回帰フローマッチング(ARFM)は逐次連続データの確率論的モデリングのための新しい手法である。
本研究では,人間とロボットの動作を予測する動作予測モデルの能力を評価するためのベンチマークを開発する。
我々のモデルは複雑な動作を予測することができ、予測された将来のトラック上での条件付きロボットの動作予測と人間の動作予測が下流タスク性能を大幅に改善できることを実証する。
- 参考スコア(独自算出の注目度): 14.914156964274897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motion prediction has been studied in different contexts with models trained on narrow distributions and applied to downstream tasks in human motion prediction and robotics. Simultaneously, recent efforts in scaling video prediction have demonstrated impressive visual realism, yet they struggle to accurately model complex motions despite massive scale. Inspired by the scaling of video generation, we develop autoregressive flow matching (ARFM), a new method for probabilistic modeling of sequential continuous data and train it on diverse video datasets to generate future point track locations over long horizons. To evaluate our model, we develop benchmarks for evaluating the ability of motion prediction models to predict human and robot motion. Our model is able to predict complex motions, and we demonstrate that conditioning robot action prediction and human motion prediction on predicted future tracks can significantly improve downstream task performance. Code and models publicly available at: https://github.com/Johnathan-Xie/arfm-motion-prediction.
- Abstract(参考訳): 動き予測は、狭い分布で訓練されたモデルを用いて異なる文脈で研究され、人間の動き予測やロボット工学における下流タスクに適用されている。
同時に、ビデオ予測をスケールする最近の取り組みは、印象的な視覚的リアリズムを示してきたが、大規模なにもかかわらず複雑な動きを正確にモデル化するのに苦労している。
ビデオ生成のスケーリングにインスパイアされた自動回帰フローマッチング(ARFM)は,逐次連続データの確率論的モデリング法であり,多種多様なビデオデータセット上で学習し,長い地平線上で将来の点追跡位置を生成する。
本モデルを評価するために,人間とロボットの動作を予測する動作予測モデルの有効性を評価するベンチマークを開発した。
我々のモデルは複雑な動作を予測することができ、予測された将来のトラック上での条件付きロボットの動作予測と人間の動作予測が下流タスク性能を大幅に改善できることを実証する。
コードとモデルは、https://github.com/Johnathan-Xie/arfm-motion-prediction.comで公開されている。
関連論文リスト
- Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Evaluation of Differentially Constrained Motion Models for Graph-Based
Trajectory Prediction [1.1947990549568765]
本研究では,予測課題に対する数値解法と組み合わせた各種動作モデルの性能について検討する。
この研究は、低階積分子モデルのようなより単純なモデルは、正確な予測を達成するために、より複雑な、例えばキネマティックモデルよりも好まれることを示している。
論文 参考訳(メタデータ) (2023-04-11T10:15:20Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - SLAMP: Stochastic Latent Appearance and Motion Prediction [14.257878210585014]
モーションはビデオ予測の重要なキューであり、ビデオコンテンツを静的なコンポーネントと動的コンポーネントに分離することでしばしば利用される。
動きを利用する以前の研究のほとんどは決定論的だが、未来の本質的な不確実性をモデル化できる方法がある。
本稿では,動きの履歴に基づいて未来を予測することによって,映像の出現と動きを推論する。
論文 参考訳(メタデータ) (2021-08-05T17:52:18Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。