論文の概要: Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization
- arxiv url: http://arxiv.org/abs/2503.11056v1
- Date: Fri, 14 Mar 2025 03:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:29.976733
- Title: Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization
- Title(参考訳): モードへのフロー:最新画像トークン化のためのモード探索拡散オートエンコーダ
- Authors: Kyle Sargent, Kyle Hsu, Justin Johnson, Li Fei-Fei, Jiajun Wu,
- Abstract要約: FlowMoは、複数の圧縮速度で画像トークン化のための新しい最先端技術を実現するトランスフォーマーベースの拡散オートエンコーダである。
重要な洞察は、FlowMoトレーニングは、トレーニング前段階とトレーニング後段階に分割されるべきであるということです。
- 参考スコア(独自算出の注目度): 28.089274647643716
- License:
- Abstract: Since the advent of popular visual generation frameworks like VQGAN and latent diffusion models, state-of-the-art image generation systems have generally been two-stage systems that first tokenize or compress visual data into a lower-dimensional latent space before learning a generative model. Tokenizer training typically follows a standard recipe in which images are compressed and reconstructed subject to a combination of MSE, perceptual, and adversarial losses. Diffusion autoencoders have been proposed in prior work as a way to learn end-to-end perceptually-oriented image compression, but have not yet shown state-of-the-art performance on the competitive task of ImageNet-1K reconstruction. We propose FlowMo, a transformer-based diffusion autoencoder that achieves a new state-of-the-art for image tokenization at multiple compression rates without using convolutions, adversarial losses, spatially-aligned two-dimensional latent codes, or distilling from other tokenizers. Our key insight is that FlowMo training should be broken into a mode-matching pre-training stage and a mode-seeking post-training stage. In addition, we conduct extensive analyses and explore the training of generative models atop the FlowMo tokenizer. Our code and models will be available at http://kylesargent.github.io/flowmo .
- Abstract(参考訳): VQGANや潜時拡散モデルのような一般的な視覚生成フレームワークが登場して以来、最先端の画像生成システムは一般的に、生成モデルを学ぶ前に、まず視覚データを低次元の潜時空間にトークン化または圧縮する2段階のシステムである。
トケナイザーの訓練は通常、画像が圧縮され、MSE、知覚的、敵対的損失の組み合わせによって再構成される標準的なレシピに従っている。
拡散オートエンコーダは、エンドツーエンドの知覚指向の画像圧縮を学習する手段として、以前の研究で提案されてきたが、ImageNet-1K再構成の競合タスクにおいて、まだ最先端のパフォーマンスは示されていない。
コンボリューションや逆方向の損失、空間的に整列した2次元潜在符号、あるいは他のトークン化器からの蒸留を使わずに、複数の圧縮速度で画像トークン化を行うための新しい最先端技術を実現するトランスフォーマーベースの拡散オートエンコーダであるFlowMoを提案する。
重要な洞察は、FlowMoトレーニングは、トレーニング前段階とトレーニング後段階に分割されるべきであるということです。
また,FlowMo トークン化器上で生成モデルの学習を広範囲に行う。
私たちのコードとモデルはhttp://kylesargent.github.io/flowmo.orgで公開されます。
関連論文リスト
- Diffusion Autoencoders are Scalable Image Tokenizers [48.22793874381871]
画像をコンパクトな視覚表現に変換することは、効率的で高品質な画像生成モデルを学ぶための重要なステップである。
本稿では、画像生成モデルのためのコンパクトな視覚表現を学習するシンプルな拡散トークン(DiTo)を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:59:37Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Learned Image Compression with Gaussian-Laplacian-Logistic Mixture Model
and Concatenated Residual Modules [22.818632387206257]
学習画像圧縮の2つの重要な要素は、潜在表現のエントロピーモデルと符号化/復号化ネットワークアーキテクチャである。
本稿では,よりフレキシブルなガウス・ラプラシア・ロジスティック混合モデル(GLLMM)を提案する。
符号化/復号化ネットワーク設計部では、複数の残差ブロックを追加のショートカット接続で直列接続する残差ブロック(CRB)を提案する。
論文 参考訳(メタデータ) (2021-07-14T02:54:22Z) - Lossless Compression with Latent Variable Models [4.289574109162585]
我々は「非対称数値系を持つビットバック」(bb-ans)と呼ぶ潜在変数モデルを用いる。
この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。
我々は,深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュール型ソフトウェアフレームワークである'craystack'について述べる。
論文 参考訳(メタデータ) (2021-04-21T14:03:05Z) - Learning to Learn to Compress [25.23586503813838]
画像圧縮のためのエンドツーエンドのメタ学習システムを提案する。
メタラーニングに基づく学習画像圧縮のための新しい訓練パラダイムを提案する。
論文 参考訳(メタデータ) (2020-07-31T13:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。