論文の概要: GenTron: Diffusion Transformers for Image and Video Generation
- arxiv url: http://arxiv.org/abs/2312.04557v2
- Date: Sun, 2 Jun 2024 09:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:01:52.204805
- Title: GenTron: Diffusion Transformers for Image and Video Generation
- Title(参考訳): GenTron:画像とビデオ生成のための拡散変換器
- Authors: Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua,
- Abstract要約: 我々は、Transformerベースの拡散を利用した生成モデルのファミリーであるGenTronを紹介する。
我々はGenTronを約900万から3B以上のパラメータに拡張し、視覚的品質の大幅な改善を観察した。
我々はGenTronをテキスト・ツー・ビデオ・ジェネレーションに拡張し、動画品質を向上させるために新しいモーションフリー・ガイダンスを取り入れた。
- 参考スコア(独自算出の注目度): 67.25155983058751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we explore Transformer-based diffusion models for image and video generation. Despite the dominance of Transformer architectures in various fields due to their flexibility and scalability, the visual generative domain primarily utilizes CNN-based U-Net architectures, particularly in diffusion-based models. We introduce GenTron, a family of Generative models employing Transformer-based diffusion, to address this gap. Our initial step was to adapt Diffusion Transformers (DiTs) from class to text conditioning, a process involving thorough empirical exploration of the conditioning mechanism. We then scale GenTron from approximately 900M to over 3B parameters, observing significant improvements in visual quality. Furthermore, we extend GenTron to text-to-video generation, incorporating novel motion-free guidance to enhance video quality. In human evaluations against SDXL, GenTron achieves a 51.1% win rate in visual quality (with a 19.8% draw rate), and a 42.3% win rate in text alignment (with a 42.9% draw rate). GenTron also excels in the T2I-CompBench, underscoring its strengths in compositional generation. We believe this work will provide meaningful insights and serve as a valuable reference for future research.
- Abstract(参考訳): 本研究では,トランスフォーマーを用いた画像と映像の拡散モデルについて検討する。
様々な分野におけるトランスフォーマーアーキテクチャの優位性は柔軟性とスケーラビリティにあるが、視覚生成領域は主にCNNベースのU-Netアーキテクチャ、特に拡散モデルを用いている。
我々は、Transformerベースの拡散を利用した生成モデルのファミリーであるGenTronを紹介し、このギャップに対処する。
最初のステップは、ディフュージョン・トランスフォーマー(DiT)をクラスからテキスト・コンディショニングに適応させることでした。
そして、GenTronを約900万から3Bのパラメータに拡張し、視覚的品質の大幅な改善を観察します。
さらに,GenTronをテキスト・ツー・ビデオ・ジェネレーションに拡張し,動画品質を向上させるための新たなモーションフリー・ガイダンスを取り入れた。
SDXLに対する人間の評価では、GenTronは視覚的品質の51.1%の勝利率(19.8%の利得率)とテキストアライメントの42.3%の勝利率(42.9%の利得率)を達成している。
GenTronはT2I-CompBenchでも優れており、組成生成の強さを裏付けている。
われわれはこの研究が有意義な洞察を与え、将来の研究の貴重な参考となると信じている。
関連論文リスト
- ProTransformer: Robustify Transformers via Plug-and-Play Paradigm [9.50340896977707]
本稿では,トランスアーキテクチャのレジリエンス向上を目的とした,新しいロバストなアテンション機構を提案する。
このテクニックは、プラグイン・アンド・プレイ層として既存のトランスフォーマーに統合することができ、追加のトレーニングや微調整を必要とせずに、堅牢性を向上させることができる。
論文 参考訳(メタデータ) (2024-10-30T16:38:09Z) - Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - Latte: Latent Diffusion Transformer for Video Generation [67.85687633666296]
ビデオ生成のための遅延拡散変換器Latteを提案する。
Lataはまず、入力ビデオから時間トークンを抽出し、次に一連のTransformerブロックを採用して、潜時空間の動画配信をモデル化する。
Lataは、4つの標準ビデオ生成データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-05T19:55:15Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。