論文の概要: OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation
- arxiv url: http://arxiv.org/abs/2406.09399v1
- Date: Thu, 13 Jun 2024 17:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:06:12.795737
- Title: OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation
- Title(参考訳): OmniTokenizer:ビジュアルジェネレーションのための共同画像-ビデオトケナイザ
- Authors: Junke Wang, Yi Jiang, Zehuan Yuan, Binyue Peng, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: トケナイザーは複雑な視覚データをコンパクトな潜在空間にマッピングする翻訳機として機能する。
本稿では,共同画像とビデオトークン化のためのトランスフォーマーベースのトークンライザであるOmniTokenizerについて述べる。
- 参考スコア(独自算出の注目度): 95.29102596532854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenizer, serving as a translator to map the intricate visual data into a compact latent space, lies at the core of visual generative models. Based on the finding that existing tokenizers are tailored to image or video inputs, this paper presents OmniTokenizer, a transformer-based tokenizer for joint image and video tokenization. OmniTokenizer is designed with a spatial-temporal decoupled architecture, which integrates window and causal attention for spatial and temporal modeling. To exploit the complementary nature of image and video data, we further propose a progressive training strategy, where OmniTokenizer is first trained on image data on a fixed resolution to develop the spatial encoding capacity and then jointly trained on image and video data on multiple resolutions to learn the temporal dynamics. OmniTokenizer, for the first time, handles both image and video inputs within a unified framework and proves the possibility of realizing their synergy. Extensive experiments demonstrate that OmniTokenizer achieves state-of-the-art (SOTA) reconstruction performance on various image and video datasets, e.g., 1.11 reconstruction FID on ImageNet and 42 reconstruction FVD on UCF-101, beating the previous SOTA methods by 13% and 26%, respectively. Additionally, we also show that when integrated with OmniTokenizer, both language model-based approaches and diffusion models can realize advanced visual synthesis performance, underscoring the superiority and versatility of our method. Code is available at https://github.com/FoundationVision/OmniTokenizer.
- Abstract(参考訳): トケナイザーは複雑な視覚データをコンパクトな潜在空間にマッピングする翻訳機として機能し、視覚生成モデルの中核に位置する。
本稿では,既存のトークン化装置が画像入力やビデオ入力に適合していることから,コンバータをベースとしたコンバータトークン化システムであるOmniTokenizerを提案する。
OmniTokenizerは空間的・時間的疎結合なアーキテクチャで設計されており、空間的・時間的モデリングのために窓と因果的注意を統合する。
画像データと映像データの相補的な性質を活用するために,OmniTokenizer は空間符号化能力を向上させるために,まず固定解像度の画像データに基づいて訓練し,複数の解像度の画像データと映像データを共同で訓練して時間的ダイナミクスを学習する,プログレッシブトレーニング戦略を提案する。
OmniTokenizerは、初めて統合されたフレームワーク内で画像とビデオの両方の入力を処理し、それらのシナジーを実現する可能性を証明する。
大規模な実験により,OmniTokenizer は ImageNet 上の1.11再構成 FID と UCF-101 上の42再構成 FVD など,様々な画像およびビデオデータセット上でのSOTA (State-of-the-art) 再構成性能を達成し,従来のSOTA 法を 13% と 26% で上回った。
さらに,OmniTokenizerと統合すると,言語モデルに基づくアプローチと拡散モデルの両方が高度な視覚合成性能を実現し,本手法の優位性と汎用性を示す。
コードはhttps://github.com/FoundationVision/OmniTokenizerで入手できる。
関連論文リスト
- QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - SweetTokenizer: Semantic-Aware Spatial-Temporal Tokenizer for Compact Visual Discretization [20.109136454526233]
SweetTokenizer (SweetTokenizer) は、視覚データに対するコンパクトで効果的な離散化手法である。
我々の目標は、VQ-VAEパラダイムの再現性を維持しつつ、トークンの圧縮比を高めることである。
論文 参考訳(メタデータ) (2024-12-11T13:48:06Z) - TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。
離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。
我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文 参考訳(メタデータ) (2024-12-04T06:46:55Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。
本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文 参考訳(メタデータ) (2023-10-09T14:10:29Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。