論文の概要: CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
- arxiv url: http://arxiv.org/abs/2408.06072v1
- Date: Mon, 12 Aug 2024 11:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:15:41.051338
- Title: CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
- Title(参考訳): CogVideoX:エキスパートトランスフォーマーによるテキストとビデオの拡散モデル
- Authors: Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang,
- Abstract要約: テキストプロンプトに基づいてビデオを生成するために設計された大規模拡散トランスフォーマモデルであるCogVideoXを紹介する。
空間次元と時間次元の両方で動画を圧縮する3次元変分自動符号化(VAE)を提案する。
また,2つのモード間の深い融合を促進するために,専門家適応型LayerNormを用いたエキスパートトランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 55.515836117658985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CogVideoX, a large-scale diffusion transformer model designed for generating videos based on text prompts. To efficently model video data, we propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along both spatial and temporal dimensions. To improve the text-video alignment, we propose an expert transformer with the expert adaptive LayerNorm to facilitate the deep fusion between the two modalities. By employing a progressive training technique, CogVideoX is adept at producing coherent, long-duration videos characterized by significant motions. In addition, we develop an effective text-video data processing pipeline that includes various data preprocessing strategies and a video captioning method. It significantly helps enhance the performance of CogVideoX, improving both generation quality and semantic alignment. Results show that CogVideoX demonstrates state-of-the-art performance across both multiple machine metrics and human evaluations. The model weights of both the 3D Causal VAE and CogVideoX are publicly available at https://github.com/THUDM/CogVideo.
- Abstract(参考訳): テキストプロンプトに基づいてビデオを生成するために設計された大規模拡散トランスフォーマモデルであるCogVideoXを紹介する。
映像データを効率的にモデル化するために,空間次元と時間次元の両方に沿って映像を圧縮する3次元変分オートエンコーダ(VAE)を提案する。
テキスト・ビデオのアライメントを改善するため,両モード間の深い融合を容易にするために,専門家適応型LayerNormを用いたエキスパートトランスフォーマーを提案する。
プログレッシブトレーニング技術を採用することで、CogVideoXは、大きな動きを特徴とするコヒーレントで長期にわたるビデオを生成することに長けている。
さらに,様々なデータ前処理戦略とビデオキャプション方式を含む効率的なテキスト-ビデオデータ処理パイプラインを開発する。
これはCagVideoXの性能向上に大きく貢献し、生成品質とセマンティックアライメントの両方を改善している。
結果は、CogVideoXが複数のマシンメトリクスと人的評価の両方で最先端のパフォーマンスを実証していることを示している。
3D Causal VAEとCogVideoXのモデルウェイトはhttps://github.com/THUDM/CogVideoで公開されている。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。