論文の概要: Flow and Depth Assisted Video Prediction with Latent Transformer
- arxiv url: http://arxiv.org/abs/2511.16484v1
- Date: Thu, 20 Nov 2025 15:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.710031
- Title: Flow and Depth Assisted Video Prediction with Latent Transformer
- Title(参考訳): 潜時変圧器を用いた流れと深度支援映像予測
- Authors: Eliyas Suleyman, Paul Henderson, Eksan Firkat, Nicolas Pugeault,
- Abstract要約: 本研究は,映像予測に係わる最初のシステマティックな研究である。
我々は,多目的潜時変圧器の標準的なアーキテクチャを用いて将来のフレームを予測するが,これを修正して深度や点フローからの情報を組み込む。
予測モデルに点流と深度を補助すると、隠蔽シナリオの精度が向上し、これらのモダリティを使わずにモデルよりも正確な背景動きを予測できることがわかった。
- 参考スコア(独自算出の注目度): 6.973908410173025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is a fundamental task for various downstream applications, including robotics and world modeling. Although general video prediction models have achieved remarkable performance in standard scenarios, occlusion is still an inherent challenge in video prediction. We hypothesize that providing explicit information about motion (via point-flow) and geometric structure (via depth-maps) will enable video prediction models to perform better in situations with occlusion and the background motion. To investigate this, we present the first systematic study dedicated to occluded video prediction. We use a standard multi-object latent transformer architecture to predict future frames, but modify this to incorporate information from depth and point-flow. We evaluate this model in a controlled setting on both synthetic and real-world datasets with not only appearance-based metrics but also Wasserstein distances on object masks, which can effectively measure the motion distribution of the prediction. We find that when the prediction model is assisted with point flow and depth, it performs better in occluded scenarios and predicts more accurate background motion compared to models without the help of these modalities.
- Abstract(参考訳): ビデオ予測は、ロボット工学や世界モデリングなど、さまざまな下流アプリケーションのための基本的なタスクである。
一般的なビデオ予測モデルは、標準的なシナリオでは顕著なパフォーマンスを達成しているが、ビデオ予測においては、隠蔽は依然として固有の課題である。
我々は、(点フローによる)動きと(深度マップによる)幾何学的構造に関する明示的な情報を提供することで、閉塞や背景運動を伴う状況下での映像予測モデルの性能が向上する、と仮定する。
そこで本研究では,映像予測に係わる最初の体系的研究について述べる。
我々は,多目的潜時変圧器の標準的なアーキテクチャを用いて将来のフレームを予測するが,これを修正して深度や点フローからの情報を組み込む。
我々は,このモデルを,外見に基づく測度だけでなく,オブジェクトマスク上でのワッサーシュタイン距離を用いて,合成および実世界のデータセットの制御環境で評価し,予測の運動分布を効果的に測定する。
予測モデルに点流と深度を補助すると、隠蔽シナリオの精度が向上し、これらのモダリティを使わずにモデルよりも正確な背景動きを予測できることがわかった。
関連論文リスト
- Video Prediction of Dynamic Physical Simulations With Pixel-Space Spatiotemporal Transformers [3.951575888190684]
本研究は,ビデオ予測のためのトランスフォーマー適応を簡易なエンド・ツー・エンド・アプローチで検討し,種々の自己時間的アテンションレイアウトを比較した。
本稿では,自動回帰映像予測のための簡易かつ効果的な変換器を提案し,連続した画素空間表現をビデオ予測水平線に適用する。
論文 参考訳(メタデータ) (2025-10-23T17:58:45Z) - What Happens Next? Anticipating Future Motion by Generating Point Trajectories [76.16266402727643]
一つの画像から動きを予測し、世界の物体がどのように動くかを予測する問題を考察する。
我々はこのタスクを,現代のビデオジェネレータのアーキテクチャを忠実に追従するモデルを用いて,高密度トラジェクトリグリッドの条件生成として定式化する。
このアプローチはシーン全体のダイナミクスと不確実性を捉え、以前の回帰器やジェネレータよりも正確で多様な予測をもたらす。
論文 参考訳(メタデータ) (2025-09-25T21:03:56Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - OFMPNet: Deep End-to-End Model for Occupancy and Flow Prediction in Urban Environment [0.0]
環境中の全ての動的オブジェクトの将来の挙動を予測するために,エンド・ツー・エンドのニューラルネットワーク手法を提案する。
本稿では, 終点誤差の大幅な低減を図った新しい時間重み付きモーションフロー損失を提案する。
論文 参考訳(メタデータ) (2024-04-02T19:37:58Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。