論文の概要: A Survey on Video Prediction: From Deterministic to Generative Approaches
- arxiv url: http://arxiv.org/abs/2401.14718v3
- Date: Mon, 22 Jul 2024 10:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 03:02:44.520586
- Title: A Survey on Video Prediction: From Deterministic to Generative Approaches
- Title(参考訳): 映像予測に関する調査:決定論的アプローチから生成的アプローチへ
- Authors: Ruibo Ming, Zhewei Huang, Zhuoxuan Ju, Jianming Hu, Lihui Peng, Shuchang Zhou,
- Abstract要約: コンピュータビジョンの基本課題である映像予測は、モデルが既存の映像コンテンツに基づいて将来のフレームのシーケンスを生成することを可能にすることを目的としている。
我々は、この分野で最も広く使われているデータセットとアルゴリズムを含む、歴史と現代の両方を包括的に調査する。
本稿では,ビデオ予測アルゴリズムの性質に着目した新しい分類法を提案する。
- 参考スコア(独自算出の注目度): 8.131773189457077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction, a fundamental task in computer vision, aims to enable models to generate sequences of future frames based on existing video content. This task has garnered widespread application across various domains. In this paper, we comprehensively survey both historical and contemporary works in this field, encompassing the most widely used datasets and algorithms. Our survey scrutinizes the challenges and evolving landscape of video prediction within the realm of computer vision. We propose a novel taxonomy centered on the stochastic nature of video prediction algorithms. This taxonomy accentuates the gradual transition from deterministic to generative prediction methodologies, underlining significant advancements and shifts in approach.
- Abstract(参考訳): コンピュータビジョンの基本課題である映像予測は、モデルが既存の映像コンテンツに基づいて将来のフレームのシーケンスを生成することを可能にすることを目的としている。
このタスクは様々なドメインにまたがって広く応用されている。
本稿では,この分野でもっとも広く使われているデータセットとアルゴリズムを網羅的に調査する。
本稿では,コンピュータビジョンの領域における映像予測の課題と展望について検討する。
本稿では,映像予測アルゴリズムの確率的性質に着目した新しい分類法を提案する。
この分類学は、決定論的から生成的予測方法論への段階的な移行をアクセント化し、アプローチの大幅な進歩とシフトを説明している。
関連論文リスト
- Visual Representation Learning with Stochastic Frame Prediction [90.99577838303297]
本稿では,フレーム予測における不確実性を捉えることを学ぶ映像生成の考え方を再考する。
フレーム間の時間情報を学習するためのフレーム予測モデルを訓練するフレームワークを設計する。
このアーキテクチャは、両目的を相乗的かつ計算効率のよい方法で組み合わせることができる。
論文 参考訳(メタデータ) (2024-06-11T16:05:15Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Review of Video Predictive Understanding: Early ActionRecognition and
Future Action Prediction [39.966828592322315]
アクション予測は、ビデオ予測理解の重要なサブ領域である。
様々な数学的ツールが、これらの2つのタスクに対してコンピュータビジョン技術と共に広く採用されている。
深層畳み込みニューラルネットワークと繰り返しニューラルネットワークに依存する構造は、既存の視覚タスクの性能を改善するために広く提案されている。
論文 参考訳(メタデータ) (2021-07-11T22:46:52Z) - Efficient training for future video generation based on hierarchical
disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。
1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。
提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文 参考訳(メタデータ) (2021-06-07T10:43:23Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。
本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文 参考訳(メタデータ) (2021-01-15T11:41:29Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z) - Deep Learning for Vision-based Prediction: A Survey [6.840474688871695]
ビジョンベースの予測アルゴリズムには、自律運転、監視、人間とロボットのインタラクション、天気予報など、幅広い応用がある。
本稿では,過去5年間の分野の概要を述べるとともに,深層学習のアプローチに焦点をあてる。
論文 参考訳(メタデータ) (2020-06-30T20:26:46Z) - A Review on Deep Learning Techniques for Video Prediction [3.203688549673373]
将来の成果を予測し、予測し、推論する能力は、インテリジェントな意思決定システムの重要な構成要素である。
ディープラーニングに基づくビデオ予測は、有望な研究方向として登場した。
論文 参考訳(メタデータ) (2020-04-10T19:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。