Fugu-MT 論文翻訳(概要): OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

論文の概要: OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

arxiv url: http://arxiv.org/abs/2406.09399v1
Date: Thu, 13 Jun 2024 17:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 16:06:12.795737
Title: OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation
Title（参考訳）: OmniTokenizer:ビジュアルジェネレーションのための共同画像-ビデオトケナイザ
Authors: Junke Wang, Yi Jiang, Zehuan Yuan, Binyue Peng, Zuxuan Wu, Yu-Gang Jiang,
Abstract要約: トケナイザーは複雑な視覚データをコンパクトな潜在空間にマッピングする翻訳機として機能する。本稿では,共同画像とビデオトークン化のためのトランスフォーマーベースのトークンライザであるOmniTokenizerについて述べる。
参考スコア（独自算出の注目度）: 95.29102596532854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tokenizer, serving as a translator to map the intricate visual data into a compact latent space, lies at the core of visual generative models. Based on the finding that existing tokenizers are tailored to image or video inputs, this paper presents OmniTokenizer, a transformer-based tokenizer for joint image and video tokenization. OmniTokenizer is designed with a spatial-temporal decoupled architecture, which integrates window and causal attention for spatial and temporal modeling. To exploit the complementary nature of image and video data, we further propose a progressive training strategy, where OmniTokenizer is first trained on image data on a fixed resolution to develop the spatial encoding capacity and then jointly trained on image and video data on multiple resolutions to learn the temporal dynamics. OmniTokenizer, for the first time, handles both image and video inputs within a unified framework and proves the possibility of realizing their synergy. Extensive experiments demonstrate that OmniTokenizer achieves state-of-the-art (SOTA) reconstruction performance on various image and video datasets, e.g., 1.11 reconstruction FID on ImageNet and 42 reconstruction FVD on UCF-101, beating the previous SOTA methods by 13% and 26%, respectively. Additionally, we also show that when integrated with OmniTokenizer, both language model-based approaches and diffusion models can realize advanced visual synthesis performance, underscoring the superiority and versatility of our method. Code is available at https://github.com/FoundationVision/OmniTokenizer.
Abstract（参考訳）: トケナイザーは複雑な視覚データをコンパクトな潜在空間にマッピングする翻訳機として機能し、視覚生成モデルの中核に位置する。本稿では,既存のトークン化装置が画像入力やビデオ入力に適合していることから,コンバータをベースとしたコンバータトークン化システムであるOmniTokenizerを提案する。 OmniTokenizerは空間的・時間的疎結合なアーキテクチャで設計されており、空間的・時間的モデリングのために窓と因果的注意を統合する。画像データと映像データの相補的な性質を活用するために,OmniTokenizer は空間符号化能力を向上させるために,まず固定解像度の画像データに基づいて訓練し,複数の解像度の画像データと映像データを共同で訓練して時間的ダイナミクスを学習する,プログレッシブトレーニング戦略を提案する。 OmniTokenizerは、初めて統合されたフレームワーク内で画像とビデオの両方の入力を処理し、それらのシナジーを実現する可能性を証明する。大規模な実験により,OmniTokenizer は ImageNet 上の1.11再構成 FID と UCF-101 上の42再構成 FVD など,様々な画像およびビデオデータセット上でのSOTA (State-of-the-art) 再構成性能を達成し,従来のSOTA 法を 13% と 26% で上回った。さらに,OmniTokenizerと統合すると,言語モデルに基づくアプローチと拡散モデルの両方が高度な視覚合成性能を実現し,本手法の優位性と汎用性を示す。コードはhttps://github.com/FoundationVision/OmniTokenizerで入手できる。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文参考訳（メタデータ） (2025-04-06T09:20:49Z)
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。 ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文参考訳（メタデータ） (2025-04-02T17:45:00Z)
TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文参考訳（メタデータ） (2024-12-04T06:46:55Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文参考訳（メタデータ） (2023-10-09T14:10:29Z)
UMIFormer: Mining the Correlations between Similar Tokens for Multi-View 3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文参考訳（メタデータ） (2023-02-27T17:27:45Z)
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文参考訳（メタデータ） (2022-09-15T17:59:59Z)
Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。 Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文参考訳（メタデータ） (2022-08-06T17:38:25Z)
Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文参考訳（メタデータ） (2021-11-05T12:57:50Z)
Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか? 本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文参考訳（メタデータ） (2020-03-11T18:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。