論文の概要: Your Image is Secretly the Last Frame of a Pseudo Video
- arxiv url: http://arxiv.org/abs/2410.20158v1
- Date: Sat, 26 Oct 2024 12:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:16:18.427724
- Title: Your Image is Secretly the Last Frame of a Pseudo Video
- Title(参考訳): Pseudoビデオの最後のフレームはあなたの写真
- Authors: Wenlong Chen, Wenlin Chen, Lapo Rastrelli, Yingzhen Li,
- Abstract要約: 擬似ビデオを用いた他の生成モデルの改善の可能性を検討する。
具体的には、まず所定の画像生成モデルをビデオ生成モデルに拡張し、次に元の画像にデータ拡張を適用して構築した擬似ビデオ上でビデオ生成モデルを訓練する。
- 参考スコア(独自算出の注目度): 20.161039114393148
- License:
- Abstract: Diffusion models, which can be viewed as a special case of hierarchical variational autoencoders (HVAEs), have shown profound success in generating photo-realistic images. In contrast, standard HVAEs often produce images of inferior quality compared to diffusion models. In this paper, we hypothesize that the success of diffusion models can be partly attributed to the additional self-supervision information for their intermediate latent states provided by corrupted images, which along with the original image form a pseudo video. Based on this hypothesis, we explore the possibility of improving other types of generative models with such pseudo videos. Specifically, we first extend a given image generative model to their video generative model counterpart, and then train the video generative model on pseudo videos constructed by applying data augmentation to the original images. Furthermore, we analyze the potential issues of first-order Markov data augmentation methods, which are typically used in diffusion models, and propose to use more expressive data augmentation to construct more useful information in pseudo videos. Our empirical results on the CIFAR10 and CelebA datasets demonstrate that improved image generation quality can be achieved with additional self-supervised information from pseudo videos.
- Abstract(参考訳): 拡散モデルは階層的変動オートエンコーダ(HVAE)の特殊な場合と見なすことができ、フォトリアリスティック画像の生成に大きく成功している。
対照的に、標準的なHVAEは拡散モデルに比べて画質が劣るイメージをしばしば生成する。
本稿では,拡散モデルの成功は,原画像とともに擬似ビデオを形成する腐敗した画像によって提供される中間潜伏状態に対する追加の自己超越情報に起因すると仮定する。
この仮説に基づいて、このような擬似ビデオを用いて、他の種類の生成モデルを改善する可能性を検討する。
具体的には、まず所定の画像生成モデルをビデオ生成モデルに拡張し、次に元の画像にデータ拡張を適用して構築した擬似ビデオ上でビデオ生成モデルを訓練する。
さらに,拡散モデルで一般的に使用される1次マルコフデータ拡張法の潜在的な問題を解析し,より表現力の高いデータ拡張を用いて擬似ビデオにより有用な情報を構築することを提案する。
CIFAR10およびCelebAデータセットにおける実験結果から,擬似ビデオからの自己教師付き情報により,画像生成品質の向上が達成できることが示された。
関連論文リスト
- Video Diffusion Alignment via Reward Gradients [46.59030518823666]
本研究では,映像拡散モデルに適応するために,強力な視覚識別モデル上での嗜好によって学習される事前学習報酬モデルを利用する。
様々な報酬モデルとビデオ拡散モデルにまたがって結果を示し、報奨クエリや計算の点で、我々のアプローチがより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2024-07-11T17:59:45Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。