論文の概要: RefTok: Reference-Based Tokenization for Video Generation
- arxiv url: http://arxiv.org/abs/2507.02862v1
- Date: Thu, 03 Jul 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.882801
- Title: RefTok: Reference-Based Tokenization for Video Generation
- Title(参考訳): RefTok:ビデオ生成のための参照ベースのトークン化
- Authors: Xiang Fan, Xiaohang Sun, Kushan Thakkar, Zhu Liu, Vimal Bhat, Ranjay Krishna, Xiang Hao,
- Abstract要約: RefTokは、複雑な時間的ダイナミクスとコンテキスト情報をキャプチャできる新しい参照ベースのトークン化手法である。
提案手法は,未知の参照フレームに条件付きフレームの集合を符号化し,デコードする。
復号化時には、RefTokは動きの連続性とフレーム間のオブジェクトの出現を保存する。
- 参考スコア(独自算出の注目度): 21.704656638282806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively handling temporal redundancy remains a key challenge in learning video models. Prevailing approaches often treat each set of frames independently, failing to effectively capture the temporal dependencies and redundancies inherent in videos. To address this limitation, we introduce RefTok, a novel reference-based tokenization method capable of capturing complex temporal dynamics and contextual information. Our method encodes and decodes sets of frames conditioned on an unquantized reference frame. When decoded, RefTok preserves the continuity of motion and the appearance of objects across frames. For example, RefTok retains facial details despite head motion, reconstructs text correctly, preserves small patterns, and maintains the legibility of handwriting from the context. Across 4 video datasets (K600, UCF-101, BAIR Robot Pushing, and DAVIS), RefTok significantly outperforms current state-of-the-art tokenizers (Cosmos and MAGVIT) and improves all evaluated metrics (PSNR, SSIM, LPIPS) by an average of 36.7% at the same or higher compression ratios. When a video generation model is trained using RefTok's latents on the BAIR Robot Pushing task, the generations not only outperform MAGVIT-B but the larger MAGVIT-L, which has 4x more parameters, across all generation metrics by an average of 27.9%.
- Abstract(参考訳): 時間的冗長性を効果的に扱うことは、ビデオモデルを学ぶ上で重要な課題である。
一般的なアプローチでは、各フレームを独立して扱うことが多く、ビデオ固有の時間的依存関係や冗長性を効果的にキャプチャできない。
この制限に対処するために、複雑な時間的ダイナミクスとコンテキスト情報をキャプチャできる参照ベースの新しいトークン化手法であるRefTokを紹介する。
提案手法は,未知の参照フレームに条件付きフレームの集合を符号化し,デコードする。
復号化時には、RefTokは動きの連続性とフレーム間のオブジェクトの出現を保存する。
例えば、RefTokは頭の動きにもかかわらず顔の詳細を保持し、テキストを正しく再構築し、小さなパターンを保存し、コンテキストから手書きの正当性を維持する。
4つのビデオデータセット(K600, UCF-101, BAIR Robot Pushing, DAVIS)で、RefTokは現在の最先端のトークンライザ(Cosmos, MAGVIT)を著しく上回り、すべての評価指標(PSNR, SSIM, LPIPS)を平均36.7%の圧縮比で改善している。
BAIR Robot PushingタスクでRefTokの潜伏者を用いてビデオ生成モデルが訓練されると、世代はMAGVIT-Bよりも4倍多いパラメータを持つMAGVIT-Lを平均27.9%向上させる。
関連論文リスト
- HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。