論文の概要: DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models
- arxiv url: http://arxiv.org/abs/2412.04446v1
- Date: Thu, 05 Dec 2024 18:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:28.031146
- Title: DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models
- Title(参考訳): DiCoDe: 言語モデルを用いた自己回帰ビデオ生成のための拡散圧縮深度トークン
- Authors: Yizhuo Li, Yuying Ge, Yixiao Ge, Ping Luo, Ying Shan,
- Abstract要約: 自動回帰方式で言語モデルでビデオを生成する新しいアプローチであるDiCoDeを紹介する。
ビデオを時間的シーケンスとして扱うことで、DiCoDeは自動回帰生成のための言語モデルの能力を完全に活用する。
我々は,DiCoDeを定量的かつ質的に評価し,既存の手法と品質の両立性を実証した。
- 参考スコア(独自算出の注目度): 72.24305287508474
- License:
- Abstract: Videos are inherently temporal sequences by their very nature. In this work, we explore the potential of modeling videos in a chronological and scalable manner with autoregressive (AR) language models, inspired by their success in natural language processing. We introduce DiCoDe, a novel approach that leverages Diffusion-Compressed Deep Tokens to generate videos with a language model in an autoregressive manner. Unlike existing methods that employ low-level representations with limited compression rates, DiCoDe utilizes deep tokens with a considerable compression rate (a 1000x reduction in token count). This significant compression is made possible by a tokenizer trained through leveraging the prior knowledge of video diffusion models. Deep tokens enable DiCoDe to employ vanilla AR language models for video generation, akin to translating one visual "language" into another. By treating videos as temporal sequences, DiCoDe fully harnesses the capabilities of language models for autoregressive generation. DiCoDe is scalable using readily available AR architectures, and is capable of generating videos ranging from a few seconds to one minute using only 4 A100 GPUs for training. We evaluate DiCoDe both quantitatively and qualitatively, demonstrating that it performs comparably to existing methods in terms of quality while ensuring efficient training. To showcase its scalability, we release a series of DiCoDe configurations with varying parameter sizes and observe a consistent improvement in performance as the model size increases from 100M to 3B. We believe that DiCoDe's exploration in academia represents a promising initial step toward scalable video modeling with AR language models, paving the way for the development of larger and more powerful video generation models.
- Abstract(参考訳): ビデオは本質的に時間的シーケンスである。
本研究では,自然言語処理の成功に触発された自己回帰(AR)言語モデルを用いて,ビデオの時系列的かつスケーラブルなモデリングの可能性を探る。
本稿では,Diffusion-Compressed Deep Tokensを利用して,言語モデルを用いて自動回帰的にビデオを生成する新しいアプローチであるDiCoDeを紹介する。
圧縮レートが制限された低レベル表現を使用する既存の方法とは異なり、DiCoDeは、かなり圧縮率の高いディープトークン(トークンカウントの1000倍の削減)を使用している。
この重要な圧縮は、ビデオ拡散モデルの事前知識を活用して訓練されたトークン化器によって実現される。
ディープトークンにより、DiCoDeはビデオ生成にバニラAR言語モデルを採用することができる。
ビデオを時間的シーケンスとして扱うことで、DiCoDeは自動回帰生成のための言語モデルの能力を完全に活用する。
DiCoDeは利用可能なARアーキテクチャを使ってスケーラブルで、トレーニング用に4つのA100 GPUを使用して数秒から1分間のビデオを生成することができる。
そこで我々は,DiCoDeを定量的かつ定性的に評価し,既存の手法と品質の両立を図りながら,効率的なトレーニングを確実にすることを示した。
拡張性を示すために、パラメータサイズが異なる一連のDiCoDe構成をリリースし、モデルサイズが100Mから3Bに増加するにつれて、一貫した性能向上を観察する。
DiCoDeのアカデミックへの探究は、AR言語モデルによるスケーラブルなビデオモデリングへの有望な第一歩であり、より大きくより強力なビデオ生成モデルの開発への道を開くものだと考えています。
関連論文リスト
- Pretrained Image-Text Models are Secretly Video Captioners [38.66202065611397]
画像ベースモデルにより、複数の特殊映像キャプションシステムよりも優れた性能が得られることが判明した。
適応モデルでは,MSRVTTとMSVDでは2位,VATEXでは3位であった。
資源最適化の観点から、このビデオキャプション研究は、モデルスケールの最適化、データ効率の最大化、強化学習の導入の3つの基本的な要素に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-19T01:53:03Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。