論文の概要: SinFusion: Training Diffusion Models on a Single Image or Video
- arxiv url: http://arxiv.org/abs/2211.11743v3
- Date: Mon, 19 Jun 2023 08:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:09:06.926978
- Title: SinFusion: Training Diffusion Models on a Single Image or Video
- Title(参考訳): SinFusion: 単一画像やビデオによる拡散モデルのトレーニング
- Authors: Yaniv Nikankin, Niv Haim and Michal Irani
- Abstract要約: 拡散モデルでは画像生成とビデオ生成が大幅に進歩し、GANよりも品質と多様性が向上した。
本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。
我々の画像/ビデオ特異的拡散モデル(SinFusion)は、拡散モデルの条件付け機能を利用して、単一の画像またはビデオの外観とダイナミクスを学習する。
- 参考スコア(独自算出の注目度): 11.473177123332281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models exhibited tremendous progress in image and video generation,
exceeding GANs in quality and diversity. However, they are usually trained on
very large datasets and are not naturally adapted to manipulate a given input
image or video. In this paper we show how this can be resolved by training a
diffusion model on a single input image or video. Our image/video-specific
diffusion model (SinFusion) learns the appearance and dynamics of the single
image or video, while utilizing the conditioning capabilities of diffusion
models. It can solve a wide array of image/video-specific manipulation tasks.
In particular, our model can learn from few frames the motion and dynamics of a
single input video. It can then generate diverse new video samples of the same
dynamic scene, extrapolate short videos into long ones (both forward and
backward in time) and perform video upsampling. Most of these tasks are not
realizable by current video-specific generation methods.
- Abstract(参考訳): 拡散モデルでは画像と映像の生成が著しく進歩し、品質と多様性においてgansを上回った。
しかし、それらは通常、非常に大きなデータセットで訓練され、所定の入力画像やビデオを操作するのに自然に適応していない。
本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。
画像/映像特異的拡散モデル(sinfusion)は,拡散モデルのコンディショニング機能を活用しつつ,単一の画像や映像の出現とダイナミクスを学習する。
様々な画像/ビデオ特有の操作タスクを解決できる。
特に,本モデルでは,単一の入力ビデオの動作とダイナミクスを少ないフレームから学習することができる。
そして、同じダイナミックシーンのさまざまな新しいビデオサンプルを生成し、短いビデオを長いもの(前方と後方の両方)に抽出し、ビデオのアップサンプリングを行う。
これらのタスクの多くは、現在のビデオ固有の生成方法では実現できない。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。
具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Diffusion Models for Video Prediction and Infilling [27.246449347832108]
本稿では,Random-Mask Video Diffusion (RaMViD)を提案する。
マスクをオンにすることで、モデルはビデオ予測、補充、アップサンプリングを行うことができる。
我々は,ビデオ予測のためのベンチマークデータセットと,競争力のある結果を得たビデオ生成のためのベンチマークデータセットを2つ評価した。
論文 参考訳(メタデータ) (2022-06-15T17:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。