論文の概要: CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
- arxiv url: http://arxiv.org/abs/2408.06072v1
- Date: Mon, 12 Aug 2024 11:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:15:41.051338
- Title: CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
- Title(参考訳): CogVideoX:エキスパートトランスフォーマーによるテキストとビデオの拡散モデル
- Authors: Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang,
- Abstract要約: テキストプロンプトに基づいてビデオを生成するために設計された大規模拡散トランスフォーマモデルであるCogVideoXを紹介する。
空間次元と時間次元の両方で動画を圧縮する3次元変分自動符号化(VAE)を提案する。
また,2つのモード間の深い融合を促進するために,専門家適応型LayerNormを用いたエキスパートトランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 55.515836117658985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CogVideoX, a large-scale diffusion transformer model designed for generating videos based on text prompts. To efficently model video data, we propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along both spatial and temporal dimensions. To improve the text-video alignment, we propose an expert transformer with the expert adaptive LayerNorm to facilitate the deep fusion between the two modalities. By employing a progressive training technique, CogVideoX is adept at producing coherent, long-duration videos characterized by significant motions. In addition, we develop an effective text-video data processing pipeline that includes various data preprocessing strategies and a video captioning method. It significantly helps enhance the performance of CogVideoX, improving both generation quality and semantic alignment. Results show that CogVideoX demonstrates state-of-the-art performance across both multiple machine metrics and human evaluations. The model weights of both the 3D Causal VAE and CogVideoX are publicly available at https://github.com/THUDM/CogVideo.
- Abstract(参考訳): テキストプロンプトに基づいてビデオを生成するために設計された大規模拡散トランスフォーマモデルであるCogVideoXを紹介する。
映像データを効率的にモデル化するために,空間次元と時間次元の両方に沿って映像を圧縮する3次元変分オートエンコーダ(VAE)を提案する。
テキスト・ビデオのアライメントを改善するため,両モード間の深い融合を容易にするために,専門家適応型LayerNormを用いたエキスパートトランスフォーマーを提案する。
プログレッシブトレーニング技術を採用することで、CogVideoXは、大きな動きを特徴とするコヒーレントで長期にわたるビデオを生成することに長けている。
さらに,様々なデータ前処理戦略とビデオキャプション方式を含む効率的なテキスト-ビデオデータ処理パイプラインを開発する。
これはCagVideoXの性能向上に大きく貢献し、生成品質とセマンティックアライメントの両方を改善している。
結果は、CogVideoXが複数のマシンメトリクスと人的評価の両方で最先端のパフォーマンスを実証していることを示している。
3D Causal VAEとCogVideoXのモデルウェイトはhttps://github.com/THUDM/CogVideoで公開されている。
関連論文リスト
- Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation [66.83462685170116]
本稿では,テキスト・ツー・イメージ・モデル,ビデオモーション・ジェネレータ,参照画像埋め込みモジュール,フレームビデオモジュールをエンドツーエンドのビデオ生成パイプラインに統合するMagicVideo-V2を紹介する。
Runway、Pika 1.0、Morph、Moon Valley、Stable Video Diffusionモデルといった主要なテキスト対ビデオシステムよりも、大規模なユーザ評価による優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-01-09T10:12:52Z) - Consistent Video-to-Video Transfer Using Synthetic Dataset [12.323784941805519]
テキストベースのビデオ・ビデオ編集のための,新しい,効率的なアプローチを提案する。
私たちのアプローチの核心は、ビデオ間転送タスクに適した合成ペアビデオデータセットです。
Instruct Pix2Pix's image transfer by editing instruction, we adapt this paradigm to the video domain。
論文 参考訳(メタデータ) (2023-11-01T01:20:12Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。