論文の概要: Long-Term Prediction of Natural Video Sequences with Robust Video
Predictors
- arxiv url: http://arxiv.org/abs/2308.11079v1
- Date: Mon, 21 Aug 2023 23:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:51:36.082525
- Title: Long-Term Prediction of Natural Video Sequences with Robust Video
Predictors
- Title(参考訳): ロバストビデオ予測器を用いた自然映像の長期予測
- Authors: Luke Ditria, Tom Drummond
- Abstract要約: 本研究では、ロバストビデオ予測器(RoViPs)の作成を支援する既存の作業の改善点をいくつか紹介する。
深い知覚と不確実性に基づく再建損失を組み合わせることで,高品質な短期予測を実現できることを示す。
注意に基づくスキップ接続は、入力特徴の長距離空間移動を可能とし、さらなる性能向上を可能にする。
- 参考スコア(独自算出の注目度): 12.763826933561244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting high dimensional video sequences is a curiously difficult problem.
The number of possible futures for a given video sequence grows exponentially
over time due to uncertainty. This is especially evident when trying to predict
complicated natural video scenes from a limited snapshot of the world. The
inherent uncertainty accumulates the further into the future you predict making
long-term prediction very difficult. In this work we introduce a number of
improvements to existing work that aid in creating Robust Video Predictors
(RoViPs). We show that with a combination of deep Perceptual and
uncertainty-based reconstruction losses we are able to create high quality
short-term predictions. Attention-based skip connections are utilised to allow
for long range spatial movement of input features to further improve
performance. Finally, we show that by simply making the predictor robust to its
own prediction errors, it is possible to produce very long, realistic natural
video sequences using an iterated single-step prediction task.
- Abstract(参考訳): 高次元ビデオシーケンスの予測は、奇妙なほど難しい問題である。
あるビデオシーケンスの可能な将来数は、不確実性のために時間とともに指数関数的に増加する。
これは、世界の限られたスナップショットから複雑な自然映像シーンを予測しようとする場合に特に顕著である。
固有の不確実性は、長期的な予測を非常に難しくする未来にさらに蓄積します。
この作業では、ロバストビデオ予測器(RoViP)の作成を支援する既存の作業に多くの改善を加えました。
深い知覚と不確実性に基づく再建損失を組み合わせることで,高品質な短期予測を実現できることを示す。
注意に基づくスキップ接続は、入力特徴の長距離空間移動を可能とし、さらなる性能向上を可能にする。
最後に,予測器を自身の予測誤差に対して頑健にすることで,反復的な単段予測タスクを用いて,非常に長く現実的な自然映像を生成できることを示す。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Existence Is Chaos: Enhancing 3D Human Motion Prediction with Uncertainty Consideration [27.28184416632815]
トレーニングデータにおける記録された動きは、所定の結果ではなく、将来の可能性の観測である可能性が示唆された。
不確実性を考慮した計算効率の良いエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2024-03-21T03:34:18Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Multiscale Video Pretraining for Long-Term Activity Forecasting [67.06864386274736]
マルチスケールビデオプレトレーニングは、複数の時間スケールで将来のビデオクリップの文脈化された表現を予測することを学ぶことによって、予測のための堅牢な表現を学習する。
MVPは、ビデオ内のアクションは、通常、短い時間スケールでアトミックアクションが起こり、より複雑なアクションがより長い時間スケールで発生する、マルチスケールな性質を持つ、という私たちの観察に基づいています。
Ego4DとEpic-Kitchens-55/100データセットにわたる包括的な実験では、MVPが最先端のメソッドをかなりのマージンで上回っていることが示されています。
論文 参考訳(メタデータ) (2023-07-24T14:55:15Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Clockwork Variational Autoencoders [33.17951971728784]
我々は,潜伏列の階層を利用したビデオ予測モデルである clockwork vae (cw-vae) を紹介する。
4つの多様なビデオ予測データセット上で,階層的遅延と時間的抽象化の両方の利点を実証する。
長期映像予測のためのMinecraftベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-18T18:23:04Z) - VAE^2: Preventing Posterior Collapse of Variational Video Predictions in
the Wild [131.58069944312248]
本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。
我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
論文 参考訳(メタデータ) (2021-01-28T15:06:08Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。