論文の概要: TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders
- arxiv url: http://arxiv.org/abs/2604.07340v1
- Date: Wed, 08 Apr 2026 17:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.668433
- Title: TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders
- Title(参考訳): TC-AE: ディープ圧縮オートエンコーダのトークン容量をアンロック
- Authors: Teng Li, Ziyuan Huang, Cong Chen, Yangfu Li, Yuanhuiyi Lyu, Dandan Zheng, Chunhua Shen, Jun Zhang,
- Abstract要約: 我々は、深部圧縮オートエンコーダのためのViTベースのアーキテクチャであるTC-AEを提案する。
トークン・ツー・ラテント圧縮を2段階に分解し,構造的情報損失を低減する。
画像トークンのセマンティック構造を,共同指導による訓練によって強化し,より生成しやすい潜伏者へと導いた。
- 参考スコア(独自算出の注目度): 51.71228803075235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose TC-AE, a ViT-based architecture for deep compression autoencoders. Existing methods commonly increase the channel number of latent representations to maintain reconstruction quality under high compression ratios. However, this strategy often leads to latent representation collapse, which degrades generative performance. Instead of relying on increasingly complex architectures or multi-stage training schemes, TC-AE addresses this challenge from the perspective of the token space, the key bridge between pixels and image latents, through two complementary innovations: Firstly, we study token number scaling by adjusting the patch size in ViT under a fixed latent budget, and identify aggressive token-to-latent compression as the key factor that limits effective scaling. To address this issue, we decompose token-to-latent compression into two stages, reducing structural information loss and enabling effective token number scaling for generation. Secondly, to further mitigate latent representation collapse, we enhance the semantic structure of image tokens via joint self-supervised training, leading to more generative-friendly latents. With these designs, TC-AE achieves substantially improved reconstruction and generative performance under deep compression. We hope our research will advance ViT-based tokenizer for visual generation.
- Abstract(参考訳): 我々は、深部圧縮オートエンコーダのためのViTベースのアーキテクチャであるTC-AEを提案する。
既存の手法では, 圧縮率の高い再設計品質を維持するために, 遅延表現のチャネル数を増大させるのが一般的である。
しかし、この戦略はしばしば遅延表現の崩壊を招き、生成性能を低下させる。
より複雑なアーキテクチャやマルチステージのトレーニングスキームに頼る代わりに、TC-AEは2つの補完的な革新を通じて、トークン空間、ピクセルと画像ラテントのキーブリッジの観点から、この課題に対処する。
この問題に対処するため、トークン間圧縮を2段階に分解し、構造情報損失を低減し、生成のための効果的なトークン数スケーリングを可能にする。
第二に、潜伏表現の崩壊をさらに緩和するために、共同自己教師による訓練により画像トークンの意味構造を強化し、より生成しやすい潜伏者を生み出す。
これらの設計により、TC-AEは深部圧縮下での再現性と生成性能を大幅に改善する。
われわれの研究は、視覚生成のためのViTベースのトークン化装置を進化させることを願っている。
関連論文リスト
- Token Compression Meets Compact Vision Transformers: A Survey and Comparative Evaluation for Edge AI [26.45869748408205]
コンピュータビジョンにおける視覚変換器(ViT)推論のための強力なツールとして、トークン圧縮技術が登場した。
本稿では,最初の系統分類法とトークン圧縮法の比較研究について述べる。
提案実験により, トークン圧縮法は汎用 ViT に対して有効であるが, コンパクトな設計に直接適用した場合は, 性能が低下することが多いことがわかった。
論文 参考訳(メタデータ) (2025-07-13T16:26:05Z) - H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [97.45170082949552]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。
H3AEはGPUとモバイルで超高圧縮比とリアルタイムデコード速度を達成する。
論文 参考訳(メタデータ) (2025-04-14T17:59:06Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。