論文の概要: CogVideo: Large-scale Pretraining for Text-to-Video Generation via
Transformers
- arxiv url: http://arxiv.org/abs/2205.15868v1
- Date: Sun, 29 May 2022 19:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:02:12.211534
- Title: CogVideo: Large-scale Pretraining for Text-to-Video Generation via
Transformers
- Title(参考訳): CogVideo:トランスフォーマーによるテキスト対ビデオ生成のための大規模プレトレーニング
- Authors: Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, Jie Tang
- Abstract要約: 大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。
CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。
CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
- 参考スコア(独自算出の注目度): 16.255516347736535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pretrained transformers have created milestones in text (GPT-3)
and text-to-image (DALL-E and CogView) generation. Its application to video
generation is still facing many challenges: The potential huge computation cost
makes the training from scratch unaffordable; The scarcity and weak relevance
of text-video datasets hinder the model understanding complex movement
semantics. In this work, we present 9B-parameter transformer CogVideo, trained
by inheriting a pretrained text-to-image model, CogView2. We also propose
multi-frame-rate hierarchical training strategy to better align text and video
clips. As (probably) the first open-source large-scale pretrained text-to-video
model, CogVideo outperforms all publicly available models at a large margin in
machine and human evaluations.
- Abstract(参考訳): 大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。
ビデオ生成へのその応用は、まだ多くの課題に直面している: 潜在的に巨大な計算コストは、スクラッチからトレーニングを不可能にする;テキストビデオデータセットの不足と弱さは、複雑な動きの意味論を理解するモデルを妨げる。
本研究では、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承して訓練した9Bパラメータ変換器CogVideoを提案する。
また,テキストやビデオクリップのコーディネーションを改善するために,多フレーム階層型トレーニング戦略を提案する。
最初の(おそらく)オープンソースで大規模な事前訓練されたテキスト・ビデオ・モデルとして、CogVideoは、マシンと人間の評価において、すべての公開モデルを上回っている。
関連論文リスト
- CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Generative Video Transformer: Can Objects be the Words? [22.788711301106765]
本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-20T03:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。