論文の概要: Flexible Diffusion Modeling of Long Videos
- arxiv url: http://arxiv.org/abs/2205.11495v1
- Date: Mon, 23 May 2022 17:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:53:07.135501
- Title: Flexible Diffusion Modeling of Long Videos
- Title(参考訳): 長ビデオのフレキシブル拡散モデリング
- Authors: William Harvey, Saeid Naderiparizi, Vaden Masrani, Christian Weilbach,
Frank Wood
- Abstract要約: 本稿では,任意のビデオフレームの任意のサブセットをテスト時にサンプリングできる生成モデルを提案する。
本稿では,25分以上の時間的コヒーレントなビデオとデータセットの事前処理によるビデオモデリングの改善を実演する。
さらに、CARLAの自動運転車シミュレータで生成されたビデオに基づいて、新しいビデオモデリングデータセットと意味論的に意味のあるメトリクスをリリースする。
- 参考スコア(独自算出の注目度): 15.220686350342385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework for video modeling based on denoising diffusion
probabilistic models that produces long-duration video completions in a variety
of realistic environments. We introduce a generative model that can at
test-time sample any arbitrary subset of video frames conditioned on any other
subset and present an architecture adapted for this purpose. Doing so allows us
to efficiently compare and optimize a variety of schedules for the order in
which frames in a long video are sampled and use selective sparse and
long-range conditioning on previously sampled frames. We demonstrate improved
video modeling over prior work on a number of datasets and sample temporally
coherent videos over 25 minutes in length. We additionally release a new video
modeling dataset and semantically meaningful metrics based on videos generated
in the CARLA self-driving car simulator.
- Abstract(参考訳): 本稿では,様々な現実的な環境下で長時間の映像補完を実現する拡散確率モデルに基づく映像モデリングフレームワークを提案する。
本稿では,任意のビデオフレームの任意のサブセットをテスト時にサンプリングできる生成モデルを紹介し,その目的に適合したアーキテクチャを提案する。
これにより、長いビデオのフレームをサンプリングする順序について、様々なスケジュールを効率よく比較し、最適化し、以前にサンプリングしたフレームに対して選択的なスパース条件と長距離条件を用いることができる。
本稿では,25分以上の時間的コヒーレントなビデオとデータセットの事前処理によるビデオモデリングの改善を実演する。
さらに、CARLAの自動運転車シミュレータで生成されたビデオに基づいて、新しいビデオモデリングデータセットと意味論的意味のあるメトリクスをリリースする。
関連論文リスト
- Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation [11.77588746719272]
本稿では、VLFM(Video Latent Flow Matching)と呼ばれる効率的なビデオモデリングプロセスについて考察する。
提案手法は,時間依存の映像フレームにデコード可能な潜在パッチのキャプション誘導流れをモデル化し,既存の強い事前学習画像生成モデルに依存する。
提案手法の有効性を示すために,複数のテキスト・ビデオ・データセットの実験を行った。
論文 参考訳(メタデータ) (2025-02-01T17:40:11Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文 参考訳(メタデータ) (2024-12-08T18:59:54Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。
VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文 参考訳(メタデータ) (2024-04-01T15:59:32Z) - SIAM: A Simple Alternating Mixer for Video Prediction [42.03590872477933]
以前のフレームから将来のフレームを予測するビデオは、自律運転や天気予報といった幅広い応用がある。
我々は、これらの機能を統一エンコーダデコーダフレームワークで明示的にモデル化し、新しい簡易性(SIAM)を提案する。
SIAMは、空間的、時間的、時間的特徴をモデル化できる交互混合(Da)ブロックの設計にある。
論文 参考訳(メタデータ) (2023-11-20T11:28:18Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。