論文の概要: Layered Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2111.12747v1
- Date: Wed, 24 Nov 2021 19:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:01:41.406959
- Title: Layered Controllable Video Generation
- Title(参考訳): 層状制御可能なビデオ生成
- Authors: Jiahui Huang, Yuhe Jin, Kwang Moo Yi, Leonid Sigal
- Abstract要約: 我々は,ビデオの初期フレームを前景層と背景層に分解する,制御可能な階層化ビデオ生成を導入する。
主な課題は、教師なしのフォアグラウンドとバックグラウンドの分離であり、曖昧であり、ユーザー操作を予測できる能力である。
この学習の有効性と,より粒度の細かい制御機構を示すとともに,2つのベンチマークデータセット上での最先端性能を示す。
- 参考スコア(独自算出の注目度): 45.87154460868496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce layered controllable video generation, where we, without any
supervision, decompose the initial frame of a video into foreground and
background layers, with which the user can control the video generation process
by simply manipulating the foreground mask. The key challenges are the
unsupervised foreground-background separation, which is ambiguous, and ability
to anticipate user manipulations with access to only raw video sequences. We
address these challenges by proposing a two-stage learning procedure. In the
first stage, with the rich set of losses and dynamic foreground size prior, we
learn how to separate the frame into foreground and background layers and,
conditioned on these layers, how to generate the next frame using VQ-VAE
generator. In the second stage, we fine-tune this network to anticipate edits
to the mask, by fitting (parameterized) control to the mask from future frame.
We demonstrate the effectiveness of this learning and the more granular control
mechanism, while illustrating state-of-the-art performance on two benchmark
datasets. We provide a video abstract as well as some video results on
https://gabriel-huang.github.io/layered_controllable_video_generation
- Abstract(参考訳): 我々は,映像の初期フレームを前景と背景の層に分解し,ユーザーが単に前景マスクを操作すれば,映像生成過程を制御できる階層化制御可能な映像生成手法を提案する。
主な課題は、教師なしのフォアグラウンドとバックグラウンドの分離であり、不明瞭であり、生のビデオシーケンスのみへのアクセスでユーザー操作を予測できる能力である。
2段階の学習手順を提案することで,これらの課題に対処する。
第1段階では、損失の豊富なセットと前景の動的サイズにより、フレームを前景層と背景層に分割し、これらの層に条件付けし、VQ-VAEジェネレータを用いて次のフレームを生成する方法を学ぶ。
第2段階では、このネットワークを微調整し、将来のフレームからマスクに(パラメータ化)制御を施すことにより、マスクへの編集を予想する。
この学習の有効性と,より粒度の細かい制御機構を示すとともに,2つのベンチマークデータセット上での最先端性能を示す。
ビデオの要約と、https://gabriel-huang.github.io/layered_controllable_video_generationのビデオ結果を提供します。
関連論文リスト
- LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - MGMAE: Motion Guided Masking for Video Masked Autoencoding [34.80832206608387]
時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:39:41Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - One-Shot Video Inpainting [5.7120338754738835]
ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
論文 参考訳(メタデータ) (2023-02-28T07:30:36Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Deformable Sprites for Unsupervised Video Decomposition [66.73136214980309]
それぞれのシーン要素を3つのコンポーネントからなるemphDeformable Spriteとして表現します。
その結果生じる分解により、一貫したビデオ編集のようなアプリケーションが可能になる。
論文 参考訳(メタデータ) (2022-04-14T17:58:02Z) - V3GAN: Decomposing Background, Foreground and Motion for Video
Generation [4.791233143264228]
本研究では,映像生成タスクを前景,背景,動きの合成に分解する手法を提案する。
前景と背景は共に外観を記述するが、動きは前景が時間とともに動画の中でどのように動くかを特定する。
本稿では,新しい3分岐生成対向ネットワークであるV3GANを提案する。
論文 参考訳(メタデータ) (2022-03-26T13:17:45Z) - Iteratively Selecting an Easy Reference Frame Makes Unsupervised Video
Object Segmentation Easier [9.11515991493206]
非教師付きビデオオブジェクトセグメンテーション(UVOS)は、前景オブジェクトの真理(GT)マスクを使わずに、前景オブジェクトをビデオの背景から分離することを目的としている。
以前のUVOSモデルは、最初のフレームまたはビデオ全体を参照フレームとして使用し、前景オブジェクトのマスクを指定する。
参照フレームとして、第1フレームやビデオ全体のみを使用することよりも、UVOSのパフォーマンスを向上させるために、より優れた参照フレームを選択することができると信じている。
論文 参考訳(メタデータ) (2021-12-23T07:54:15Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。