論文の概要: VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
- arxiv url: http://arxiv.org/abs/2604.12887v1
- Date: Tue, 14 Apr 2026 15:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.538869
- Title: VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
- Title(参考訳): VideoFlexTok:フレキシブルな長さの粗大なビデオトークン化
- Authors: Andrei Atanov, Jesse Allardice, Roman Bachmann, Oğuzhan Fatih Kar, R Devon Hjelm, David Griffiths, Peter Fu, Afshin Dehghan, Amir Zamir,
- Abstract要約: VideoFlexTokは、粗い方法で構造化された可変長のトークンシーケンスでビデオを表現する。
生成フローデコーダは、任意のトークン数からリアルなビデオ再構成を可能にする。
- 参考スコア(独自算出の注目度): 19.140563809250214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual tokenizers map high-dimensional raw pixels into a compressed representation for downstream modeling. Beyond compression, tokenizers dictate what information is preserved and how it is organized. A de facto standard approach to video tokenization is to represent a video as a spatiotemporal 3D grid of tokens, each capturing the corresponding local information in the original signal. This requires the downstream model that consumes the tokens, e.g., a text-to-video model, to learn to predict all low-level details "pixel-by-pixel" irrespective of the video's inherent complexity, leading to high learning complexity. We present VideoFlexTok, which represents videos with a variable-length sequence of tokens structured in a coarse-to-fine manner -- where the first tokens (emergently) capture abstract information, such as semantics and motion, and later tokens add fine-grained details. The generative flow decoder enables realistic video reconstructions from any token count. This representation structure allows adapting the token count according to downstream needs and encoding videos longer than the baselines with the same budget. We evaluate VideoFlexTok on class- and text-to-video generative tasks and show that it leads to more efficient training compared to 3D grid tokens, e.g., achieving comparable generation quality (gFVD and ViCLIP Score) with a 5x smaller model (1.1B vs 5.2B). Finally, we demonstrate how VideoFlexTok can enable long video generation without prohibitive computational cost by training a text-to-video model on 10-second 81-frame videos with only 672 tokens, 8x fewer than a comparable 3D grid tokenizer.
- Abstract(参考訳): ビジュアルトークンーは、高次元の生のピクセルを下流モデリングのための圧縮表現にマッピングする。
圧縮以外にも、トークンーはどの情報が保存され、どのように整理されるかを規定する。
ビデオトークン化のデファクトスタンダードなアプローチは、ビデオをトークンの時空間3Dグリッドとして表現することであり、それぞれが元の信号で対応するローカル情報をキャプチャする。
これは、ビデオ固有の複雑さに関係なく、低レベルのすべての詳細を"ピクセル・バイ・ピクセル"を予測することを学ぶために、例えば、テキスト・ツー・ビデオモデルのようなトークンを消費するダウンストリームモデルを必要とする。
このビデオFlexTokは、粗い方法で構造化されたトークンの可変長シーケンスでビデオを表現するもので、最初のトークンがセマンティクスやモーションなどの抽象情報を(創発的に)キャプチャし、後にトークンが細かな詳細を付加する。
生成フローデコーダは、任意のトークン数からリアルなビデオ再構成を可能にする。
この表現構造により、下流のニーズに応じてトークンカウントを適応させ、同じ予算でベースラインよりも長いビデオをエンコードすることができる。
ビデオFlexTokをクラスおよびテキスト・ツー・ビデオ生成タスクで評価し,5倍のモデル(1.1B×5.2B)で生成品質(gFVDおよびViCLIPスコア)を達成することで,3Dグリッドトークンと比較して,より効率的なトレーニングを実現することを示す。
最後に,ビデオFlexTokが10秒間81フレームビデオのテキスト・ツー・ビデオモデルを672トークンでトレーニングすることで,計算コストを抑えることなく,長時間のビデオ生成を可能にすることを示す。
関連論文リスト
- Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。
CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文 参考訳(メタデータ) (2024-11-22T06:50:44Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。