論文の概要: Conditional Generative Modeling for Images, 3D Animations, and Video
- arxiv url: http://arxiv.org/abs/2310.13157v1
- Date: Thu, 19 Oct 2023 21:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 01:14:52.806552
- Title: Conditional Generative Modeling for Images, 3D Animations, and Video
- Title(参考訳): 画像, 3dアニメーション, 映像の条件付き生成モデリング
- Authors: Vikram Voleti
- Abstract要約: コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。
研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
- 参考スコア(独自算出の注目度): 4.422441608136163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This dissertation attempts to drive innovation in the field of generative
modeling for computer vision, by exploring novel formulations of conditional
generative models, and innovative applications in images, 3D animations, and
video. Our research focuses on architectures that offer reversible
transformations of noise and visual data, and the application of
encoder-decoder architectures for generative tasks and 3D content manipulation.
In all instances, we incorporate conditional information to enhance the
synthesis of visual data, improving the efficiency of the generation process as
well as the generated content.
We introduce the use of Neural ODEs to model video dynamics using an
encoder-decoder architecture, demonstrating their ability to predict future
video frames despite being trained solely to reconstruct current frames. Next,
we propose a conditional variant of continuous normalizing flows that enables
higher-resolution image generation based on lower-resolution input, achieving
comparable image quality while reducing parameters and training time. Our next
contribution presents a pipeline that takes human images as input,
automatically aligns a user-specified 3D character with the pose of the human,
and facilitates pose editing based on partial inputs. Next, we derive the
relevant mathematical details for denoising diffusion models that use
non-isotropic Gaussian processes, and show comparable generation quality.
Finally, we devise a novel denoising diffusion framework capable of solving all
three video tasks of prediction, generation, and interpolation. We perform
ablation studies, and show SOTA results on multiple datasets.
Our contributions are published articles at peer-reviewed venues. Overall,
our research aims to make a meaningful contribution to the pursuit of more
efficient and flexible generative models, with the potential to shape the
future of computer vision.
- Abstract(参考訳): この論文は、条件付き生成モデルの新規な定式化と、画像、3dアニメーション、ビデオにおける革新的な応用を探求することで、コンピュータビジョンのための生成モデリングの分野における革新を推進する試みである。
本研究は,ノイズと視覚データの可逆変換を提供するアーキテクチャと,生成タスクおよび3次元コンテンツ操作のためのエンコーダデコーダアーキテクチャの適用に焦点を当てる。
すべての事例において、条件情報を導入し、視覚データの合成を強化し、生成プロセスの効率と生成されたコンテンツを改善する。
本稿では,エンコーダ-デコーダアーキテクチャを用いたビデオダイナミクスのモデル化にニューラルネットワークを用いた場合,現在のフレームを再構築するためにのみ訓練されたにも関わらず,将来のビデオフレームを予測する能力を示す。
次に,低解像度入力に基づく高分解能画像生成を可能にし,パラメータとトレーニング時間を削減しつつ,同等の画質を達成する連続正規化フローの条件付き変種を提案する。
次のコントリビューションでは,人間のイメージを入力とし,ユーザの指定した3Dキャラクタと人間のポーズを自動的に調整し,部分的な入力に基づいたポーズ編集を容易にするパイプラインを提案する。
次に,非等方性ガウス過程を用いる拡散モデルについて関連する数学的詳細を導出し,同等の世代品質を示す。
最後に,予測,生成,補間という3つの映像タスクを全て解決可能な,新しい雑音拡散フレームワークを考案する。
アブレーション研究を行い、複数のデータセット上でSOTA結果を示す。
当社のコントリビューションは、ピアレビューされた会場で公開されているものです。
我々の研究は、コンピュータビジョンの未来を形作る可能性があり、より効率的で柔軟な生成モデル追求に有意義な貢献をすることを目的としています。
関連論文リスト
- RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane
Networks [63.84589410872608]
本研究では,長期的空間的および時間的依存に対処する新しい非条件ビデオ生成モデルを提案する。
提案手法は計算複雑性をFLOPの測定値として2ドル程度削減する。
我々のモデルは高精細度ビデオクリップを256時間256ドルピクセルの解像度で合成でき、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - 3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。
神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-29T17:56:03Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。