論文の概要: Learnings from Scaling Visual Tokenizers for Reconstruction and Generation
- arxiv url: http://arxiv.org/abs/2501.09755v1
- Date: Thu, 16 Jan 2025 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:28.426976
- Title: Learnings from Scaling Visual Tokenizers for Reconstruction and Generation
- Title(参考訳): 再生・生成のための視覚トケナイザのスケーリングから学ぶ
- Authors: Philippe Hansen-Estruch, David Yan, Ching-Yao Chung, Orr Zohar, Jialiang Wang, Tingbo Hou, Tao Xu, Sriram Vishwanath, Peter Vajda, Xinlei Chen,
- Abstract要約: 自動エンコーディングによるビジュアルトークン化は、ピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを促進する。
私たちの研究は、この空白を埋めるために自動エンコーダのスケーリングを調査することを目的としています。
我々は、ImageNet-1Kを超える大規模な画像およびビデオデータセット上でViTokをトレーニングし、トークンのスケーリングに関するデータ制約を取り除く。
- 参考スコア(独自算出の注目度): 30.942443676393584
- License:
- Abstract: Visual tokenization via auto-encoding empowers state-of-the-art image and video generative models by compressing pixels into a latent space. Although scaling Transformer-based generators has been central to recent advances, the tokenizer component itself is rarely scaled, leaving open questions about how auto-encoder design choices influence both its objective of reconstruction and downstream generative performance. Our work aims to conduct an exploration of scaling in auto-encoders to fill in this blank. To facilitate this exploration, we replace the typical convolutional backbone with an enhanced Vision Transformer architecture for Tokenization (ViTok). We train ViTok on large-scale image and video datasets far exceeding ImageNet-1K, removing data constraints on tokenizer scaling. We first study how scaling the auto-encoder bottleneck affects both reconstruction and generation -- and find that while it is highly correlated with reconstruction, its relationship with generation is more complex. We next explored the effect of separately scaling the auto-encoders' encoder and decoder on reconstruction and generation performance. Crucially, we find that scaling the encoder yields minimal gains for either reconstruction or generation, while scaling the decoder boosts reconstruction but the benefits for generation are mixed. Building on our exploration, we design ViTok as a lightweight auto-encoder that achieves competitive performance with state-of-the-art auto-encoders on ImageNet-1K and COCO reconstruction tasks (256p and 512p) while outperforming existing auto-encoders on 16-frame 128p video reconstruction for UCF-101, all with 2-5x fewer FLOPs. When integrated with Diffusion Transformers, ViTok demonstrates competitive performance on image generation for ImageNet-1K and sets new state-of-the-art benchmarks for class-conditional video generation on UCF-101.
- Abstract(参考訳): 自動エンコーディングによるビジュアルトークン化は、ピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを促進する。
トランスフォーマーベースのジェネレータのスケーリングは近年の進歩の中心であるが、トークンライザコンポーネント自体が拡張されることは稀であり、自動エンコーダの設計選択が再構成と下流生成性能の両方の目的にどのように影響するかというオープンな疑問を残している。
私たちの研究は、この空白を埋めるために自動エンコーダのスケーリングを調査することを目的としています。
この探索を容易にするため、一般的な畳み込みバックボーンを、Tokenization(ViTok)のためのVision Transformerアーキテクチャに置き換える。
我々は、ImageNet-1Kを超える大規模な画像およびビデオデータセット上でViTokをトレーニングし、トークンのスケーリングに関するデータ制約を取り除く。
オートエンコーダのボトルネックのスケーリングが、再構築と生成の両方にどのように影響するかを最初に研究した結果、再構築と高い相関性がある一方で、生成との関係はより複雑であることがわかった。
次に、自動エンコーダのエンコーダとデコーダを別々にスケーリングすることで、再構成および生成性能に与える影響について検討した。
重要なことに、エンコーダのスケーリングは、再構成または生成のいずれにおいても最小限のゲインを得る一方、デコーダのスケーリングは再構築を促進するが、生成のメリットは混在している。
われわれの調査に基づいて、我々はViTokを、ImageNet-1KおよびCOCO再構成タスク(256pおよび512p)における最先端のオートエンコーダと競合する性能を達成する軽量なオートエンコーダとして設計し、UCF-101の16フレーム128pビデオ再構成において、既存のオートエンコーダよりも2-5倍少ないFLOPを実現した。
Diffusion Transformersと統合すると、ViTokはImageNet-1Kの画像生成における競合性能を示し、UCF-101上のクラス条件のビデオ生成のための新しい最先端ベンチマークを設定する。
関連論文リスト
- Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation [74.15447383432262]
Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークンのオープンソースレプリケーションを生成する。
我々は、大規模なデータに基づいて事前訓練されたトークンーザを提供し、ゼロショットベンチマークでコスモスを著しく上回っている。
我々は3億から1.5Bまでの自己回帰画像生成モデル群を作成した。
論文 参考訳(メタデータ) (2024-09-06T17:14:53Z) - An Efficient Implicit Neural Representation Image Codec Based on Mixed Autoregressive Model for Low-Complexity Decoding [43.43996899487615]
画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。
我々は、現在のINRの復号時間を大幅に削減するために、新しいMixed AutoRegressive Model (MARM)を導入する。
MARMには提案したAutoRegressive Upsampler(ARU)ブロックが含まれている。
論文 参考訳(メタデータ) (2024-01-23T09:37:58Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - ALAP-AE: As-Lite-as-Possible Auto-Encoder [6.244939945140818]
本稿では,条件付き画像生成オートエンコーダが必要とするテンソル計算を削減するアルゴリズムを提案する。
条件付き画像生成タスクの性能向上を示す。
画像品質を維持しつつ、CPUのみのデバイス上で様々なオートエンコーダのリアルタイムバージョンを実現する。
論文 参考訳(メタデータ) (2022-03-19T18:03:08Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。