論文の概要: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space
- arxiv url: http://arxiv.org/abs/2505.17011v1
- Date: Thu, 22 May 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.557112
- Title: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space
- Title(参考訳): 1次元潜在空間における適応的・一時的因果的ビデオトークン化の学習
- Authors: Yan Li, Changyao Tian, Renqiu Xia, Ning Liao, Weiwei Guo, Junchi Yan, Hongsheng Li, Jifeng Dai, Hao Li, Xue Yang,
- Abstract要約: AdapTokは、ビデオコンテンツに基づいて異なるフレームに対してフレキシブルにトークンを割り当てる適応的時間的因果的ビデオトークンライザである。
AdapTokは、異なるトークン予算の下で、再構築品質と生成パフォーマンスを継続的に改善する。
- 参考スコア(独自算出の注目度): 84.22182151122598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose AdapTok, an adaptive temporal causal video tokenizer that can flexibly allocate tokens for different frames based on video content. AdapTok is equipped with a block-wise masking strategy that randomly drops tail tokens of each block during training, and a block causal scorer to predict the reconstruction quality of video frames using different numbers of tokens. During inference, an adaptive token allocation strategy based on integer linear programming is further proposed to adjust token usage given predicted scores. Such design allows for sample-wise, content-aware, and temporally dynamic token allocation under a controllable overall budget. Extensive experiments for video reconstruction and generation on UCF-101 and Kinetics-600 demonstrate the effectiveness of our approach. Without additional image data, AdapTok consistently improves reconstruction quality and generation performance under different token budgets, allowing for more scalable and token-efficient generative video modeling.
- Abstract(参考訳): 本稿では,ビデオコンテンツに基づいて,異なるフレームに対してフレキシブルにトークンを割り当てる適応型時間的因果的ビデオトークンライザAdapTokを提案する。
AdapTokは、トレーニング中に各ブロックのテールトークンをランダムにドロップするブロックワイドマスキング戦略と、異なる数のトークンを使用してビデオフレームの再構築品質を予測するブロック因果スコアラを備えている。
推論中、予測されたスコアのトークン使用量を調整するために、整数線形計画に基づく適応トークン割り当て戦略が提案されている。
このような設計は、管理可能な全体予算の下で、サンプル単位で、コンテンツに気付き、時間的に動的にトークンの割り当てを可能にする。
UCF-101およびKineetics-600のビデオ再構成と生成のための大規模な実験により,本手法の有効性が示された。
追加のイメージデータがないと、AdapTokは異なるトークン予算の下で復元品質と生成性能を継続的に改善し、よりスケーラブルでトークン効率の良い生成ビデオモデリングを可能にします。
関連論文リスト
- Make Your Training Flexible: Towards Deployment-Efficient Video Models [22.727848052298427]
予算間での入力情報を最大化するための新しいテスト設定であるToken Optimizationを提案する。
サンプリンググリッドをフレキシブルにし、トークンの選択を活用することで、最も人気のあるビデオトレーニングフレームワークに容易に採用できる。
大規模なビデオ事前トレーニングにFluxを統合し、その結果のFluxViTは、標準的なコストで広範囲のタスクにまたがって、新たな最先端の結果を確立します。
論文 参考訳(メタデータ) (2025-03-18T13:15:58Z) - Fast Autoregressive Video Generation with Diagonal Decoding [34.90521536645348]
DiagD (Diagonal Decoding) は、自己回帰事前学習モデルのためのトレーニング不要な推論高速化アルゴリズムである。
本手法は,空間的時間的トークングリッド内の対角経路に沿ってトークンを生成し,各フレーム内で並列デコードを可能にする。
DiagDは、単純でシーケンシャルなデコーディングに比べて最大10倍のスピードアップを達成すると同時に、同等の視覚的忠実さを維持している。
論文 参考訳(メタデータ) (2025-03-18T09:42:55Z) - Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。
CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文 参考訳(メタデータ) (2024-11-22T06:50:44Z) - LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior [36.663855554010674]
本稿では、自己回帰(AR)生成モデルにおける現在のビデオトークン化手法の限界を克服する新しいビデオトークン化手法であるLARPを提案する。
局所的な視覚的パッチを直接離散トークンにエンコードする従来のパッチワイドトークンライザとは異なり、LARPは全体的トークン化スキームを導入している。
ローカルなパッチレベルの情報に制限されるのではなく、よりグローバルでセマンティックな表現をキャプチャする。
論文 参考訳(メタデータ) (2024-10-28T17:57:07Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。