論文の概要: Autoregression-free video prediction using diffusion model for mitigating error propagation
- arxiv url: http://arxiv.org/abs/2505.22111v2
- Date: Fri, 30 May 2025 16:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.124991
- Title: Autoregression-free video prediction using diffusion model for mitigating error propagation
- Title(参考訳): 拡散モデルを用いた自己回帰自由映像予測による誤り伝播の軽減
- Authors: Woonho Ko, Jin Bok Park, Il Yong Chun,
- Abstract要約: 本稿では拡散モデルを用いた最初のオートレグレスフリー(ARFree)ビデオ予測フレームワークを提案する。
自動回帰ビデオ予測メカニズムとは異なり、ARFreeはコンテキストフレームから直接将来のフレームを予測する。
提案するARFreeビデオ予測フレームワークは,2つのベンチマークデータセットを用いた実験により,最先端のビデオ予測手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 4.813333335683417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing long-term video prediction methods often rely on an autoregressive video prediction mechanism. However, this approach suffers from error propagation, particularly in distant future frames. To address this limitation, this paper proposes the first AutoRegression-Free (ARFree) video prediction framework using diffusion models. Different from an autoregressive video prediction mechanism, ARFree directly predicts any future frame tuples from the context frame tuple. The proposed ARFree consists of two key components: 1) a motion prediction module that predicts a future motion using motion feature extracted from the context frame tuple; 2) a training method that improves motion continuity and contextual consistency between adjacent future frame tuples. Our experiments with two benchmark datasets show that the proposed ARFree video prediction framework outperforms several state-of-the-art video prediction methods.
- Abstract(参考訳): 既存の長期ビデオ予測手法は、しばしば自己回帰的なビデオ予測機構に依存している。
しかし、このアプローチは特に遠い未来のフレームにおいてエラーの伝播に悩まされる。
この制限に対処するために,拡散モデルを用いた最初のAutoRegression-Free(ARFree)ビデオ予測フレームワークを提案する。
自動回帰ビデオ予測メカニズムとは異なり、ARFreeはコンテキストフレームタプルから将来のフレームタプルを直接予測する。
提案されたARFreeは2つの重要なコンポーネントで構成されている。
1 コンテキストフレームタプルから抽出した動き特徴を用いて将来の動きを予測する動き予測モジュール
2)隣接する将来のフレームタプル間の動きの連続性と文脈整合性を改善する訓練方法。
提案するARFreeビデオ予測フレームワークは,2つのベンチマークデータセットを用いた実験により,最先端のビデオ予測手法よりも優れた性能を示した。
関連論文リスト
- State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend [3.910356300831074]
本稿では,全体の映像フレーム生成を決定論的外観予測と動き予測に分解する状態空間分解ビデオ予測モデルを提案する。
条件付きフレームから長期動作傾向を推定し,条件付きフレームとの高整合性を示す将来のフレームの生成を導く。
論文 参考訳(メタデータ) (2024-04-17T17:19:48Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - A unified model for continuous conditional video prediction [14.685237010856953]
条件付きビデオ予測タスクは通常、タスク関連モデルによって解決される。
ほぼ全ての条件付きビデオ予測モデルは、離散的な予測しか達成できない。
本稿では,これら2つの問題を同時に扱う統一モデルを提案する。
論文 参考訳(メタデータ) (2022-10-11T22:26:59Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - VPTR: Efficient Transformers for Video Prediction [14.685237010856953]
本稿では,効率的な局所的空間的時間的分離注意機構に基づく,映像の将来のフレーム予測のためのトランスフォーマーブロックを提案する。
この新しいトランスフォーマーブロックに基づいて,トランスフォーマーの完全自己回帰映像フレーム予測を提案する。
自動回帰ビデオ予測変換器も提案され、推論速度を向上し、自己回帰ビデオの累積推論誤差を低減する。
論文 参考訳(メタデータ) (2022-03-29T18:09:09Z) - Fourier-based Video Prediction through Relational Object Motion [28.502280038100167]
ビデオ予測のタスクには, 深い再帰的アーキテクチャが適用されている。
本稿では、周波数領域のアプローチをビデオ予測に用い、異なるアプローチを提案する。
結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに苦しむことはない。
論文 参考訳(メタデータ) (2021-10-12T10:43:05Z) - Novel View Video Prediction Using a Dual Representation [51.58657840049716]
単一/複数ビューから入力されたビデオクリップのセットを考慮すれば,ネットワークは新たなビューからビデオを予測することができる。
提案手法では事前の知識は必要とせず,より広い角距離から最大45度まで映像を予測できる。
SSIMは26.1%、PSNRは13.6%、FVDスコアは60%向上した。
論文 参考訳(メタデータ) (2021-06-07T20:41:33Z) - Less is More: Sparse Sampling for Dense Reaction Predictions [60.005266111509435]
本稿では,ビデオチャレンジからの2021Evoked Expressionを提案する。
本モデルでは,音声と画像の両モードを入力として,視聴者の感情変化を予測する。
提案手法は, 最終プライベートテストセットにおいて, ピアソンの相関スコア0.04430を達成した。
論文 参考訳(メタデータ) (2021-06-03T11:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。