論文の概要: A Survey on Video Prediction: From Deterministic to Generative Approaches
- arxiv url: http://arxiv.org/abs/2401.14718v3
- Date: Mon, 22 Jul 2024 10:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 03:02:44.520586
- Title: A Survey on Video Prediction: From Deterministic to Generative Approaches
- Title(参考訳): 映像予測に関する調査:決定論的アプローチから生成的アプローチへ
- Authors: Ruibo Ming, Zhewei Huang, Zhuoxuan Ju, Jianming Hu, Lihui Peng, Shuchang Zhou,
- Abstract要約: コンピュータビジョンの基本課題である映像予測は、モデルが既存の映像コンテンツに基づいて将来のフレームのシーケンスを生成することを可能にすることを目的としている。
我々は、この分野で最も広く使われているデータセットとアルゴリズムを含む、歴史と現代の両方を包括的に調査する。
本稿では,ビデオ予測アルゴリズムの性質に着目した新しい分類法を提案する。
- 参考スコア(独自算出の注目度): 8.131773189457077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction, a fundamental task in computer vision, aims to enable models to generate sequences of future frames based on existing video content. This task has garnered widespread application across various domains. In this paper, we comprehensively survey both historical and contemporary works in this field, encompassing the most widely used datasets and algorithms. Our survey scrutinizes the challenges and evolving landscape of video prediction within the realm of computer vision. We propose a novel taxonomy centered on the stochastic nature of video prediction algorithms. This taxonomy accentuates the gradual transition from deterministic to generative prediction methodologies, underlining significant advancements and shifts in approach.
- Abstract(参考訳): コンピュータビジョンの基本課題である映像予測は、モデルが既存の映像コンテンツに基づいて将来のフレームのシーケンスを生成することを可能にすることを目的としている。
このタスクは様々なドメインにまたがって広く応用されている。
本稿では,この分野でもっとも広く使われているデータセットとアルゴリズムを網羅的に調査する。
本稿では,コンピュータビジョンの領域における映像予測の課題と展望について検討する。
本稿では,映像予測アルゴリズムの確率的性質に着目した新しい分類法を提案する。
この分類学は、決定論的から生成的予測方法論への段階的な移行をアクセント化し、アプローチの大幅な進歩とシフトを説明している。
関連論文リスト
- AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - A Comprehensive Taxonomy and Analysis of Talking Head Synthesis: Techniques for Portrait Generation, Driving Mechanisms, and Editing [8.171572460041823]
トーキングヘッド合成は、特定のコンテンツによって駆動される静止画像からポートレートビデオを生成する高度な方法である。
本調査は,3つの重要な領域 – ポートレート生成,駆動機構,編集技術 – に分類し,その技術を体系的にレビューする。
論文 参考訳(メタデータ) (2024-06-15T08:14:59Z) - Visual Representation Learning with Stochastic Frame Prediction [90.99577838303297]
本稿では,フレーム予測における不確実性を捉えることを学ぶ映像生成の考え方を再考する。
フレーム間の時間情報を学習するためのフレーム予測モデルを訓練するフレームワークを設計する。
このアーキテクチャは、両目的を相乗的かつ計算効率のよい方法で組み合わせることができる。
論文 参考訳(メタデータ) (2024-06-11T16:05:15Z) - Cumulative Distribution Function based General Temporal Point Processes [49.758080415846884]
CuFunモデルは、累積分布関数(CDF)を中心に回転するTPPに対する新しいアプローチを表す
提案手法は従来のTPPモデリングに固有のいくつかの重要な問題に対処する。
コントリビューションには、先駆的なCDFベースのTPPモデルの導入、過去の事象情報を将来の事象予測に組み込む方法論の開発が含まれている。
論文 参考訳(メタデータ) (2024-02-01T07:21:30Z) - Comprehensive Exploration of Synthetic Data Generation: A Survey [4.485401662312072]
この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
論文 参考訳(メタデータ) (2024-01-04T20:23:51Z) - Towards the Unification of Generative and Discriminative Visual
Foundation Model: A Survey [30.528346074194925]
視覚基礎モデル(VFM)はコンピュータビジョンの基盤となる発展の触媒となっている。
本稿では,VFMの重要軌道を概説し,その拡張性と生成タスクの熟練性を強調した。
今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。
論文 参考訳(メタデータ) (2023-12-15T19:17:15Z) - A supervised generative optimization approach for tabular data [2.5311562666866494]
本研究は,新しい合成データ生成フレームワークを提案する。
特定の下流タスクに適した教師ありコンポーネントを統合し、メタラーニングアプローチを用いて既存の合成分布の最適混合分布を学習する。
論文 参考訳(メタデータ) (2023-09-10T16:56:46Z) - LatentFormer: Multi-Agent Transformer-Based Interaction Modeling and
Trajectory Prediction [12.84508682310717]
将来の車両軌道予測のためのトランスフォーマーモデルであるLatentFormerを提案する。
提案手法をnuScenesベンチマークデータセット上で評価し,提案手法が最先端性能を実現し,トラジェクトリ指標を最大40%向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T17:44:58Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Three Steps to Multimodal Trajectory Prediction: Modality Clustering,
Classification and Synthesis [54.249502356251085]
我々は新しい予測フレームワークと共に新しい洞察を示す。
提案手法は、社会情報や地図情報を導入することなく、最先端の作品を超える。
論文 参考訳(メタデータ) (2021-03-14T06:21:03Z) - Future Urban Scenes Generation Through Vehicles Synthesis [90.1731992199415]
本研究では,都市景観の視覚的外観を予測するためのディープラーニングパイプラインを提案する。
ループには解釈可能な情報が含まれ、各アクターは独立してモデル化される。
従来のCityFlowのシーン生成手法に比べて,このアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2020-07-01T08:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。