論文の概要: Diverse Video Generation using a Gaussian Process Trigger
- arxiv url: http://arxiv.org/abs/2107.04619v1
- Date: Fri, 9 Jul 2021 18:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 13:22:07.895479
- Title: Diverse Video Generation using a Gaussian Process Trigger
- Title(参考訳): ガウス過程トリガーを用いた多様な映像生成
- Authors: Gaurav Shrivastava and Abhinav Shrivastava
- Abstract要約: ビデオ生成に対する現在の変分アプローチは、マルチモーダルな将来の結果よりもハーフライズする傾向にある。
本稿では,将来の成果の多様性を明確にモデル化し,多様未来に活用することを提案する。
生成したシーケンスの復元品質と多様性の観点から,将来的なフレーム生成の最先端性を実現する。
- 参考スコア(独自算出の注目度): 22.00808964967228
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generating future frames given a few context (or past) frames is a
challenging task. It requires modeling the temporal coherence of videos and
multi-modality in terms of diversity in the potential future states. Current
variational approaches for video generation tend to marginalize over
multi-modal future outcomes. Instead, we propose to explicitly model the
multi-modality in the future outcomes and leverage it to sample diverse
futures. Our approach, Diverse Video Generator, uses a Gaussian Process (GP) to
learn priors on future states given the past and maintains a probability
distribution over possible futures given a particular sample. In addition, we
leverage the changes in this distribution over time to control the sampling of
diverse future states by estimating the end of ongoing sequences. That is, we
use the variance of GP over the output function space to trigger a change in an
action sequence. We achieve state-of-the-art results on diverse future frame
generation in terms of reconstruction quality and diversity of the generated
sequences.
- Abstract(参考訳): いくつかのコンテキスト(あるいは過去の)フレームが与えられた将来のフレームを生成するのは、難しい作業です。
将来的な状態の多様性の観点から、ビデオの時間的コヒーレンスとマルチモダリティをモデル化する必要がある。
ビデオ生成に対する現在の変分アプローチは、マルチモーダルな将来の結果よりも疎外する傾向にある。
代わりに、将来の成果におけるマルチモダリティを明示的にモデル化し、多様な未来をサンプリングするためにそれを活用することを提案する。
我々のアプローチであるDiverse Video Generatorは、ガウス過程(GP)を用いて、過去の状態を学習し、特定のサンプルを与えられた未来の確率分布を維持する。
さらに,この分布の変化を時間とともに活用し,現在進行中のシーケンスの終了を推定することで,多様な将来状態のサンプリングを制御する。
すなわち、出力関数空間上のGPの分散を利用して、アクションシーケンスの変更をトリガーする。
生成したシーケンスの復元品質と多様性の観点から,将来的なフレーム生成の最先端性を実現する。
関連論文リスト
- Timer-XL: Long-Context Transformers for Unified Time Series Forecasting [67.83502953961505]
我々は時系列の統一予測のための生成変換器Timer-XLを提案する。
Timer-XLは、統一されたアプローチにより、挑戦的な予測ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-07T07:27:39Z) - DRFormer: Multi-Scale Transformer Utilizing Diverse Receptive Fields for Long Time-Series Forecasting [3.420673126033772]
本稿では,動的スパース学習アルゴリズムを用いた動的トークン化手法を提案する。
提案するDRFormerは,実世界の様々なデータセットを用いて評価し,既存の手法と比較して,その優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-08-05T07:26:47Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - GePSAn: Generative Procedure Step Anticipation in Cooking Videos [22.908511747910197]
プロシージャビデオにおける将来のステップ予測の問題について検討する。
進行中の手続き的活動のビデオから、我々はリッチな自然言語で記述された妥当な次の手順を予測する。
本モデルでは,次のステップの予測において多様性を捉え,複数の予測可能な将来予測を生成する。
論文 参考訳(メタデータ) (2023-10-12T13:20:17Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - VAE^2: Preventing Posterior Collapse of Variational Video Predictions in
the Wild [131.58069944312248]
本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。
我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
論文 参考訳(メタデータ) (2021-01-28T15:06:08Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z) - Probabilistic Future Prediction for Video Scene Understanding [11.236856606065514]
本稿では,ビデオからの確率論的未来予測のための新しいディープラーニングアーキテクチャを提案する。
我々は、未来の意味論、複雑な現実世界の都市シーンの動きを予測し、この表現を使って自動運転車を制御する。
論文 参考訳(メタデータ) (2020-03-13T17:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。