論文の概要: VideoPoet: A Large Language Model for Zero-Shot Video Generation
- arxiv url: http://arxiv.org/abs/2312.14125v4
- Date: Tue, 4 Jun 2024 17:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:37:33.674372
- Title: VideoPoet: A Large Language Model for Zero-Shot Video Generation
- Title(参考訳): VideoPoet: ゼロショットビデオ生成のための大規模言語モデル
- Authors: Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang,
- Abstract要約: VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。
VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
- 参考スコア(独自算出の注目度): 78.57171527944774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/
- Abstract(参考訳): 本稿では,多種多様な条件信号から高品質な映像と音声を合成可能な言語モデルであるVideoPoetを提案する。
VideoPoetは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
トレーニングプロトコルはLarge Language Models (LLM)の後継で、事前訓練とタスク固有の適応という2つの段階で構成されている。
事前トレーニング中、VideoPoetは自動回帰トランスフォーマーフレームワークにマルチモーダル生成目的の混合を組み込んでいる。
事前訓練されたLLMは、様々なビデオ生成タスクに適応できる基盤として機能する。
ゼロショットビデオ生成におけるモデルの現状を示す実証実験の結果,特に高忠実度モーションを生成する VideoPoet の能力を強調した。
プロジェクトページ: http://sites.research.google/videopoet/
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - GPT4Video: A Unified Multimodal Large Language Model for
lnstruction-Followed Understanding and Safety-Aware Generation [103.56612788682973]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。
具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文 参考訳(メタデータ) (2023-11-25T04:05:59Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。