論文の概要: Video Prediction of Dynamic Physical Simulations With Pixel-Space Spatiotemporal Transformers
- arxiv url: http://arxiv.org/abs/2510.20807v1
- Date: Thu, 23 Oct 2025 17:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.539024
- Title: Video Prediction of Dynamic Physical Simulations With Pixel-Space Spatiotemporal Transformers
- Title(参考訳): 画素空間時空間変圧器を用いた動的物理シミュレーションの映像予測
- Authors: Dean L Slack, G Thomas Hudson, Thomas Winterbottom, Noura Al Moubayed,
- Abstract要約: 本研究は,ビデオ予測のためのトランスフォーマー適応を簡易なエンド・ツー・エンド・アプローチで検討し,種々の自己時間的アテンションレイアウトを比較した。
本稿では,自動回帰映像予測のための簡易かつ効果的な変換器を提案し,連続した画素空間表現をビデオ予測水平線に適用する。
- 参考スコア(独自算出の注目度): 3.951575888190684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the performance and scalability of autoregressive large language models (LLMs), transformer-based models have seen recent success in the visual domain. This study investigates a transformer adaptation for video prediction with a simple end-to-end approach, comparing various spatiotemporal self-attention layouts. Focusing on causal modeling of physical simulations over time; a common shortcoming of existing video-generative approaches, we attempt to isolate spatiotemporal reasoning via physical object tracking metrics and unsupervised training on physical simulation datasets. We introduce a simple yet effective pure transformer model for autoregressive video prediction, utilizing continuous pixel-space representations for video prediction. Without the need for complex training strategies or latent feature-learning components, our approach significantly extends the time horizon for physically accurate predictions by up to 50% when compared with existing latent-space approaches, while maintaining comparable performance on common video quality metrics. In addition, we conduct interpretability experiments to identify network regions that encode information useful to perform accurate estimations of PDE simulation parameters via probing models, and find that this generalizes to the estimation of out-of-distribution simulation parameters. This work serves as a platform for further attention-based spatiotemporal modeling of videos via a simple, parameter efficient, and interpretable approach.
- Abstract(参考訳): 自動回帰型大規模言語モデル(LLM)の性能とスケーラビリティに触発されたトランスフォーマーベースのモデルは、視覚領域で最近成功している。
本研究では,ビデオ予測のためのトランスフォーマー適応法を簡易なエンドツーエンドアプローチで検討し,時空間的自己アテンションレイアウトを比較した。
物理シミュレーションの因果的モデリングに時間をかけて着目し、既存のビデオ生成アプローチの共通の欠点として、物理的物体追跡メトリクスによる時空間推論と物理シミュレーションデータセットの教師なしトレーニングを分離しようと試みる。
本稿では,ビデオ予測に連続した画素空間表現を利用する,自己回帰的ビデオ予測のための単純かつ効果的な純粋なトランスフォーマーモデルを提案する。
複雑なトレーニング戦略や潜在機能学習コンポーネントを必要とせずに、我々のアプローチは、既存の潜在空間アプローチと比較して、物理的に正確な予測を行うための時間的地平を最大50%拡張し、ビデオ品質のメトリクスで同等のパフォーマンスを維持します。
さらに、探索モデルを用いてPDEシミュレーションパラメータの正確な推定を行うのに有用な情報を符号化するネットワーク領域を特定するための解釈可能性実験を行い、これは分布外シミュレーションパラメータの推定に一般化することを示した。
この研究は、単純でパラメータ効率が高く、解釈可能なアプローチを通じて、ビデオのさらなる注意に基づく時空間モデリングのためのプラットフォームとして機能する。
関連論文リスト
- Artificial Intelligence-Based Multiscale Temporal Modeling for Anomaly Detection in Cloud Services [10.421371572062595]
本研究では,マルチスケール特徴認識を統合したTransformerアーキテクチャに基づく異常検出手法を提案する。
提案手法は,精度,リコール,AUC,F1スコアなどの主要な指標において,主流のベースラインモデルより優れている。
論文 参考訳(メタデータ) (2025-08-20T07:52:36Z) - Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting [32.846428862045634]
Sim Anythingは、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える物理ベースのアプローチである。
人間の視覚的推論に触発されて,MLLMに基づく物理特性知覚を提案する。
また、物理幾何学的適応サンプリングを用いて粒子をサンプリングして、オープンワールドシーンでオブジェクトをシミュレートする。
論文 参考訳(メタデータ) (2024-11-19T12:52:21Z) - Learning Physics From Video: Unsupervised Physical Parameter Estimation for Continuous Dynamical Systems [49.11170948406405]
本研究では,単一のビデオから既知の連続制御方程式の物理パラメータを推定する教師なし手法を提案する。
Delfys75は5種類の動的システムのための75本のビデオからなる実世界のデータセットだ。
論文 参考訳(メタデータ) (2024-10-02T09:44:54Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。