論文の概要: TokensGen: Harnessing Condensed Tokens for Long Video Generation
- arxiv url: http://arxiv.org/abs/2507.15728v1
- Date: Mon, 21 Jul 2025 15:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.464443
- Title: TokensGen: Harnessing Condensed Tokens for Long Video Generation
- Title(参考訳): TokensGen:長いビデオ生成のために凝縮したトークンを嫌がる
- Authors: Wenqi Ouyang, Zeqi Xiao, Danni Yang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan,
- Abstract要約: TokensGenは、凝縮トークンを利用して長いビデオを生成する新しいフレームワークである。
提案手法は,長い映像生成を3つの中核的タスクに分解する:内クリップ意味制御,長期一貫性制御,クリック間スムーズな遷移。
実験の結果,提案手法は計算オーバーヘッドを抑えることなく,長期的時間的・コンテンツ的コヒーレンスを著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 20.131731700177806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating consistent long videos is a complex challenge: while diffusion-based generative models generate visually impressive short clips, extending them to longer durations often leads to memory bottlenecks and long-term inconsistency. In this paper, we propose TokensGen, a novel two-stage framework that leverages condensed tokens to address these issues. Our method decomposes long video generation into three core tasks: (1) inner-clip semantic control, (2) long-term consistency control, and (3) inter-clip smooth transition. First, we train To2V (Token-to-Video), a short video diffusion model guided by text and video tokens, with a Video Tokenizer that condenses short clips into semantically rich tokens. Second, we introduce T2To (Text-to-Token), a video token diffusion transformer that generates all tokens at once, ensuring global consistency across clips. Finally, during inference, an adaptive FIFO-Diffusion strategy seamlessly connects adjacent clips, reducing boundary artifacts and enhancing smooth transitions. Experimental results demonstrate that our approach significantly enhances long-term temporal and content coherence without incurring prohibitive computational overhead. By leveraging condensed tokens and pre-trained short video models, our method provides a scalable, modular solution for long video generation, opening new possibilities for storytelling, cinematic production, and immersive simulations. Please see our project page at https://vicky0522.github.io/tokensgen-webpage/ .
- Abstract(参考訳): 拡散に基づく生成モデルは視覚的に印象的なショートクリップを生成するが、それを長い期間延長することは記憶のボトルネックと長期的不整合につながることが多い。
本稿では,この問題を解決するために凝縮トークンを利用する新しい2段階フレームワークであるTokensGenを提案する。
本手法は,長い映像生成を,(1)内輪意味制御,(2)長期整合制御,(3)内輪間スムーズな遷移の3つのコアタスクに分解する。
まず、テキストとビデオトークンでガイドされた短いビデオ拡散モデルであるTo2V(Token-to-Video)を、短いクリップを意味的にリッチなトークンに凝縮するVideo Tokenizerで訓練する。
第2に、ビデオトークン拡散変換器であるT2To(Text-to-Token)を導入し、すべてのトークンを同時に生成し、クリップ間のグローバルな一貫性を確保する。
最後に, 適応型FIFO拡散方式は, 隣接クリップをシームレスに接続し, 境界アーチファクトを低減し, 滑らかな遷移を向上する。
実験の結果,提案手法は計算オーバーヘッドを抑えることなく,長期的時間的・コンテンツ的コヒーレンスを著しく向上させることが示された。
コンデンストークンと事前学習したショートビデオモデルを活用することで、長いビデオ生成のためのスケーラブルでモジュール化されたソリューションを提供し、ストーリーテリング、シネマティックプロダクション、没入型シミュレーションの新たな可能性を開く。
プロジェクトページはhttps://vicky0522.github.io/tokensgen-webpage/。
関連論文リスト
- Frame-Level Captions for Long Video Generation with Complex Multi Scenes [52.12699618126831]
本稿では,データセットをフレームレベルでアノテートする方法を提案する。
この詳細なガイダンスはFrame-Level Attention Mechanismを使って、テキストとビデオの一致を正確に確認する。
トレーニングでは、Diffusion Forcingを使用して、モデルを柔軟に処理する能力を提供します。
論文 参考訳(メタデータ) (2025-05-27T07:39:43Z) - Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。
ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。
極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T17:34:06Z) - Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Towards End-to-End Generative Modeling of Long Videos with
Memory-Efficient Bidirectional Transformers [13.355338760884583]
本稿では,ビデオの長期依存性をエンドツーエンドに学習するためのメモリ指向の双方向変換器(MeBT)を提案する。
本手法は,部分的に観察されたパッチからビデオの全時間容積を並列に復号する。
論文 参考訳(メタデータ) (2023-03-20T16:35:38Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。