論文の概要: VTok: A Unified Video Tokenizer with Decoupled Spatial-Temporal Latents
- arxiv url: http://arxiv.org/abs/2602.04202v1
- Date: Wed, 04 Feb 2026 04:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.370017
- Title: VTok: A Unified Video Tokenizer with Decoupled Spatial-Temporal Latents
- Title(参考訳): VTok: 空間的遅延を分離したビデオトケナイザ
- Authors: Feng Wang, Yichun Shi, Ceyuan Yang, Qiushan Guo, Jingxiang Sun, Alan Yuille, Peng Wang,
- Abstract要約: この作業では、生成と理解の両方に使用できる統合ビデオトークン化フレームワークであるVTokを紹介している。
本稿では,映像の空間的・時間的表現を1つのキーフレームの空間的特徴を保ちながら,各フレームを1つの残差トークンに符号化することで分離することを提案する。
実験の結果,VTokはフレーム数とフレーム単位のトークン数から,映像表現の複雑さをその和に効果的に還元することがわかった。
- 参考スコア(独自算出の注目度): 33.80068883432077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents VTok, a unified video tokenization framework that can be used for both generation and understanding tasks. Unlike the leading vision-language systems that tokenize videos through a naive frame-sampling strategy, we propose to decouple the spatial and temporal representations of videos by retaining the spatial features of a single key frame while encoding each subsequent frame into a single residual token, achieving compact yet expressive video tokenization. Our experiments suggest that VTok effectively reduces the complexity of video representation from the product of frame count and per-frame token count to their sum, while the residual tokens sufficiently capture viewpoint and motion changes relative to the key frame. Extensive evaluations demonstrate the efficacy and efficiency of VTok: it achieves notably higher performance on a range of video understanding and text-to-video generation benchmarks compared with baselines using naive tokenization, all with shorter token sequences per video (e.g., 3.4% higher accuracy on our TV-Align benchmark and 1.9% higher VBench score). Remarkably, VTok produces more coherent motion and stronger guidance following in text-to-video generation, owing to its more consistent temporal encoding. We hope VTok can serve as a standardized video tokenization paradigm for future research in video understanding and generation.
- Abstract(参考訳): この作業では、生成と理解の両方に使用できる統合ビデオトークン化フレームワークであるVTokを紹介している。
本研究では,映像の空間的特徴を保ちながら,各フレームを1つの残留トークンに符号化し,コンパクトかつ表現力のあるビデオトークン化を実現することによって,映像の空間的・時間的表現を分離することを提案する。
実験により,VTokはフレーム数とフレーム単位のトークン数からその和まで,映像表現の複雑さを効果的に低減し,残余トークンはキーフレームに対する視点や動きの変化を十分に捉えることが示唆された。
大規模な評価はVTokの有効性と有効性を示す: ビデオの理解とテキスト・ツー・ビデオ生成のベンチマークにおいて、単純トークン化を用いたベースラインと比較して顕著に高いパフォーマンスを達成している(例えば、TV-Alignベンチマークでは3.4%、VBenchスコアでは1.9%)。
注目すべきは、VTokは、より一貫性のあるテンポラリエンコーディングのため、テキスト・ビデオ生成に続き、よりコヒーレントな動きとより強力なガイダンスを生成することである。
VTokは、ビデオの理解と生成における将来の研究のための標準化されたビデオトークン化パラダイムとして機能することを願っている。
関連論文リスト
- FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。