論文の概要: Phenaki: Variable Length Video Generation From Open Domain Textual
Description
- arxiv url: http://arxiv.org/abs/2210.02399v1
- Date: Wed, 5 Oct 2022 17:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:59:31.155514
- Title: Phenaki: Variable Length Video Generation From Open Domain Textual
Description
- Title(参考訳): Phenaki:オープンドメインのテキスト記述による可変長ビデオ生成
- Authors: Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan
Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze,
Dumitru Erhan
- Abstract要約: フェナキ(Phenaki)は、一連のテキストプロンプトを与えられたリアルなビデオ合成が可能なモデルである。
ビデオ表現を学習する新しいモデルは、ビデオを離散トークンの小さな表現に圧縮する。
私たちの知る限りでは、論文が時間変化プロンプトからビデオを生成するのは今回が初めてです。
- 参考スコア(独自算出の注目度): 21.610541668826006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Phenaki, a model capable of realistic video synthesis, given a
sequence of textual prompts. Generating videos from text is particularly
challenging due to the computational cost, limited quantities of high quality
text-video data and variable length of videos. To address these issues, we
introduce a new model for learning video representation which compresses the
video to a small representation of discrete tokens. This tokenizer uses causal
attention in time, which allows it to work with variable-length videos. To
generate video tokens from text we are using a bidirectional masked transformer
conditioned on pre-computed text tokens. The generated video tokens are
subsequently de-tokenized to create the actual video. To address data issues,
we demonstrate how joint training on a large corpus of image-text pairs as well
as a smaller number of video-text examples can result in generalization beyond
what is available in the video datasets. Compared to the previous video
generation methods, Phenaki can generate arbitrary long videos conditioned on a
sequence of prompts (i.e. time variable text or a story) in open domain. To the
best of our knowledge, this is the first time a paper studies generating videos
from time variable prompts. In addition, compared to the per-frame baselines,
the proposed video encoder-decoder computes fewer tokens per video but results
in better spatio-temporal consistency.
- Abstract(参考訳): 本稿では,実写ビデオ合成が可能なモデルであるPhenakiについて,一連のテキストプロンプトを提示する。
テキストからビデオを生成することは、計算コスト、高品質なテキストビデオデータの量、動画の長さの変化など、特に難しい。
この問題に対処するために,映像を離散トークンの小さな表現に圧縮する,映像表現学習の新しいモデルを提案する。
このトークンーは時間内に因果注意を使い、可変長のビデオで作業することができる。
テキストからビデオトークンを生成するには、あらかじめ計算されたテキストトークンに条件付き双方向マスク付きトランスフォーマーを使用する。
生成されたビデオトークンはその後、実際のビデオを作成するために切り離される。
データ問題に対処するために、画像とテキストのペアの大規模なコーパスと、ビデオテキストのサンプルの少ない共同トレーニングが、ビデオデータセットで利用可能なもの以上の一般化をもたらすことを実証する。
従来のビデオ生成方法と比較して、Phenakiはオープンドメイン内の一連のプロンプト(例えば時間変化テキストやストーリー)に基づいて任意の長ビデオを生成することができる。
私たちの知る限りでは、タイム変数のプロンプトからビデオを生成する研究は、これが初めてです。
さらに、フレーム単位のベースラインと比較して、提案するビデオエンコーダデコーダは、ビデオ毎のトークンが少ないが、時空間整合性が向上する。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens [70.80127538938093]
Vista-LLaMAは、すべての視覚トークンと任意の言語トークンとの一貫性のある距離を維持する新しいフレームワークである。
本稿では,現在の映像フレームを前フレームの助けを借りて,言語空間のトークンに投影する逐次視覚プロジェクタを提案する。
論文 参考訳(メタデータ) (2023-12-12T09:47:59Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。