論文の概要: V3GAN: Decomposing Background, Foreground and Motion for Video
Generation
- arxiv url: http://arxiv.org/abs/2203.14074v1
- Date: Sat, 26 Mar 2022 13:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:37:44.396950
- Title: V3GAN: Decomposing Background, Foreground and Motion for Video
Generation
- Title(参考訳): V3GAN:ビデオ生成のための背景・前景・動きの分解
- Authors: Arti Keshari, Sonam Gupta and Sukhendu Das
- Abstract要約: 本研究では,映像生成タスクを前景,背景,動きの合成に分解する手法を提案する。
前景と背景は共に外観を記述するが、動きは前景が時間とともに動画の中でどのように動くかを特定する。
本稿では,新しい3分岐生成対向ネットワークであるV3GANを提案する。
- 参考スコア(独自算出の注目度): 4.791233143264228
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video generation is a challenging task that requires modeling plausible
spatial and temporal dynamics in a video. Inspired by how humans perceive a
video by grouping a scene into moving and stationary components, we propose a
method that decomposes the task of video generation into the synthesis of
foreground, background and motion. Foreground and background together describe
the appearance, whereas motion specifies how the foreground moves in a video
over time. We propose V3GAN, a novel three-branch generative adversarial
network where two branches model foreground and background information, while
the third branch models the temporal information without any supervision. The
foreground branch is augmented with our novel feature-level masking layer that
aids in learning an accurate mask for foreground and background separation. To
encourage motion consistency, we further propose a shuffling loss for the video
discriminator. Extensive quantitative and qualitative analysis on synthetic as
well as real-world benchmark datasets demonstrates that V3GAN outperforms the
state-of-the-art methods by a significant margin.
- Abstract(参考訳): ビデオ生成は、ビデオ内の妥当な空間的および時間的ダイナミクスのモデリングを必要とする困難なタスクである。
本研究では,映像生成の課題をフォアグラウンド,背景,動きの合成に分解する手法を提案する。
前景と背景は共に外観を記述するが、動きは前景が時間とともに動画の中でどのように動くかを特定する。
本稿では,V3GANを提案する。V3GANは2つの枝が前景と背景情報をモデル化し,第3枝は監督なしで時間情報をモデル化する。
前景枝には,前景と背景分離のための正確なマスクの学習を支援する,新しい機能レベルのマスキング層が付加されている。
動きの整合性を促進するため,ビデオ識別器のシャッフル損失についても提案する。
人工的および実世界のベンチマークデータセットに関する大規模な定量的および定性的な分析は、V3GANが最先端の手法を著しく上回っていることを示している。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文 参考訳(メタデータ) (2021-08-30T17:55:28Z) - Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses [36.00309828380724]
本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-07-17T19:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。