論文の概要: A Simple Text to Video Model via Transformer
- arxiv url: http://arxiv.org/abs/2309.14683v1
- Date: Tue, 26 Sep 2023 05:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 14:56:05.391604
- Title: A Simple Text to Video Model via Transformer
- Title(参考訳): Transformerを用いた簡単なテキスト・ビデオモデル
- Authors: Gang Chen
- Abstract要約: 本稿では,Transformerをベースとした汎用的でシンプルなテキストをビデオモデルに提示する。
テキストもビデオもシーケンシャルなデータなので、テキストも画像も同じ隠れ空間にエンコードします。
GPT2を使用して、UCF101データセット上でアプローチをテストし、有望なビデオを生成することができることを示す。
- 参考スコア(独自算出の注目度): 4.035107857147382
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a general and simple text to video model based on Transformer.
Since both text and video are sequential data, we encode both texts and images
into the same hidden space, which are further fed into Transformer to capture
the temporal consistency and then decoder to generate either text or images.
Considering the image signal may become weak in the long sequence, we introduce
the U-Net to reconstruct image from its noised version. Specifically, we
increase the noise level to the original image in the long sequence, then use
the $down$ module from U-Net to encode noised images, which are further input
to transformer to predict next clear images. We also add a constraint to
promote motion between any generated image pair in the video. We use GPT2 and
test our approach on UCF101 dataset and show it can generate promising videos.
- Abstract(参考訳): 本稿では,トランスフォーマーに基づくビデオモデルに対する汎用的でシンプルなテキストを提案する。
テキストとビデオの両方がシーケンシャルなデータであるため、テキストとイメージの両方を同じ隠れ空間にエンコードし、さらにトランスフォーマティブに送られて時間的一貫性を捉え、デコーダでテキストまたは画像を生成する。
長いシーケンスで画像信号が弱くなることを考慮し、U-Netを導入し、そのノイズバージョンから画像を再構成する。
具体的には、長いシーケンスで元の画像にノイズレベルを増加させ、次にu-netから$down$モジュールを使用してノイズ画像をエンコードします。
また、ビデオ内の生成された画像ペア間の動きを促進する制約も追加します。
GPT2を使用して、UCF101データセット上でアプローチをテストし、有望なビデオを生成することができることを示す。
関連論文リスト
- CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Phenaki: Variable Length Video Generation From Open Domain Textual
Description [21.610541668826006]
フェナキ(Phenaki)は、一連のテキストプロンプトを与えられたリアルなビデオ合成が可能なモデルである。
ビデオ表現を学習する新しいモデルは、ビデオを離散トークンの小さな表現に圧縮する。
私たちの知る限りでは、論文が時間変化プロンプトからビデオを生成するのは今回が初めてです。
論文 参考訳(メタデータ) (2022-10-05T17:18:28Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP [17.861540412002967]
一般的なテキスト・画像生成のための自己教師型スキームであるCLIP-GENを提案する。
提案手法では,テキスト・ツー・イメージ・ジェネレータをトレーニングするには,一般領域におけるラベルなし画像のセットのみが必要となる。
本手法は画像品質の点で最適化に基づくテキスト・画像の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-01T12:11:32Z) - Bornon: Bengali Image Captioning with Transformer-based Deep learning
approach [0.0]
トランスフォーマーモデルは、英語のデータセットを使用して画像からキャプションを生成するために使用される。
我々は3つの異なるベンガルデータセットを用いて、Transformerモデルを用いて画像からベンガルキャプションを生成した。
変換器モデルとベンガル画像キャプションデータセットを用いた他のモデルとの比較を行った。
論文 参考訳(メタデータ) (2021-09-11T08:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。