論文の概要: PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation
- arxiv url: http://arxiv.org/abs/2601.16210v1
- Date: Thu, 22 Jan 2026 18:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.701724
- Title: PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation
- Title(参考訳): PyraTok:ビデオ理解と生成のための言語対応ピラミッドトケナイザ
- Authors: Onkar Susladkar, Tushar Prakash, Adheesh Juvekar, Kiet A. Nguyen, Dong-Hwan Jang, Inderjit S Dhillon, Ismini Lourentzou,
- Abstract要約: PyraTokは言語対応のピラミッドトークンで、複数の解像度で意味的に構造化されたラテントを学ぶ。
PyraTokは、事前訓練されたビデオVAEと、新しいLanguage Pyramidal Quantization(LaPQ)モジュールをベースとしている。
LaPQは、共有された大きなバイナリコードブックを使用してエンコーダをいくつかの深さで識別し、コンパクトだが表現力のあるビデオトークンシーケンスを生成する。
- 参考スコア(独自算出の注目度): 16.49483030664511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete video VAEs underpin modern text-to-video generation and video understanding systems, yet existing tokenizers typically learn visual codebooks at a single scale with limited vocabularies and shallow language supervision, leading to poor cross-modal alignment and zero-shot transfer. We introduce PyraTok, a language-aligned pyramidal tokenizer that learns semantically structured discrete latents across multiple spatiotemporal resolutions. PyraTok builds on a pretrained video VAE and a novel Language aligned Pyramidal Quantization (LaPQ) module that discretizes encoder features at several depths using a shared large binary codebook, yielding compact yet expressive video token sequences. To tightly couple visual tokens with language, PyraTok jointly optimizes multi-scale text-guided quantization and a global autoregressive objective over the token hierarchy. Across ten benchmarks, PyraTok delivers state-of-the-art (SOTA) video reconstruction, consistently improves text-to-video quality, and sets new SOTA zero-shot performance on video segmentation, temporal action localization, and video understanding, scaling robustly to up to 4K/8K resolutions.
- Abstract(参考訳): 離散ビデオVAEは、現代のテキスト-ビデオ生成とビデオ理解システムを支えるが、既存のトークン化ツールは通常、語彙が限られ、言語が浅い単一のスケールでビジュアルコードブックを学習する。
複数の時空間分解能にまたがって意味的に構造化された離散潜伏語を学習する言語対応のピラミッド型トークンーザであるPiraTokを紹介した。
PyraTokは、事前訓練されたビデオVAEと、共有された大きなバイナリコードブックを使用してエンコーダ機能をいくつかの深さで識別し、コンパクトで表現力のあるビデオトークンシーケンスを生成する、新しいLanguage aligned Pyramidal Quantization (LaPQ)モジュールの上に構築されている。
ビジュアルトークンを言語と密に結合するために、PiraTokは、マルチスケールのテキスト誘導量子化と、トークン階層よりもグローバルな自己回帰的目的を共同で最適化する。
また、ビデオセグメンテーション、時間的アクションローカライゼーション、ビデオ理解に新たなSOTAゼロショットのパフォーマンスを設定し、4K/8K解像度まで堅牢にスケーリングする。
関連論文リスト
- Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization [20.063863466319326]
SignViPは、複数のきめ細かい条件を組み込んだ新しいフレームワークである。
SignViPは、ビデオ品質の時間的コヒーレンスやセマンティクスの忠実さなど、メトリクス間の最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-19T02:56:06Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。