論文の概要: MeanFlow Transformers with Representation Autoencoders
- arxiv url: http://arxiv.org/abs/2511.13019v1
- Date: Mon, 17 Nov 2025 06:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.713107
- Title: MeanFlow Transformers with Representation Autoencoders
- Title(参考訳): 表現オートエンコーダを用いた平均フロー変換器
- Authors: Zheyuan Hu, Chieh-Hsin Lai, Ge Wu, Yuki Mitsufuji, Stefano Ermon,
- Abstract要約: MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
- 参考スコア(独自算出の注目度): 71.45823902973349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MeanFlow (MF) is a diffusion-motivated generative model that enables efficient few-step generation by learning long jumps directly from noise to data. In practice, it is often used as a latent MF by leveraging the pre-trained Stable Diffusion variational autoencoder (SD-VAE) for high-dimensional data modeling. However, MF training remains computationally demanding and is often unstable. During inference, the SD-VAE decoder dominates the generation cost, and MF depends on complex guidance hyperparameters for class-conditional generation. In this work, we develop an efficient training and sampling scheme for MF in the latent space of a Representation Autoencoder (RAE), where a pre-trained vision encoder (e.g., DINO) provides semantically rich latents paired with a lightweight decoder. We observe that naive MF training in the RAE latent space suffers from severe gradient explosion. To stabilize and accelerate training, we adopt Consistency Mid-Training for trajectory-aware initialization and use a two-stage scheme: distillation from a pre-trained flow matching teacher to speed convergence and reduce variance, followed by an optional bootstrapping stage with a one-point velocity estimator to further reduce deviation from the oracle mean flow. This design removes the need for guidance, simplifies training configurations, and reduces computation in both training and sampling. Empirically, our method achieves a 1-step FID of 2.03, outperforming vanilla MF's 3.43, while reducing sampling GFLOPS by 38% and total training cost by 83% on ImageNet 256. We further scale our approach to ImageNet 512, achieving a competitive 1-step FID of 3.23 with the lowest GFLOPS among all baselines. Code is available at https://github.com/sony/mf-rae.
- Abstract(参考訳): MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
実際には、高次元データモデリングにSD-VAE (Stable Diffusion variational autoencoder) を用いることで、遅延MFとして使われることが多い。
しかし、MFトレーニングは依然として計算的に必要であり、しばしば不安定である。
推論中、SD-VAEデコーダは生成コストを支配し、MFはクラス条件生成のための複雑な誘導ハイパーパラメータに依存する。
本研究では,Representation Autoencoder (RAE) の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
我々は,RAE潜伏空間におけるナイーブMF訓練が急激な勾配爆発に苦しむのを観察した。
訓練の安定化と高速化を目的として,軌道認識初期化にConsistency Mid-Trainingを採用し,事前学習したフローマッチング教師から蒸留を行い,速度収束とばらつきを低減し,その後,1点速度推定器を用いた任意のブートストラップステージを用いて,オラクル平均流からの偏差をさらに低減する2段階のスキームを用いた。
この設計では、ガイダンスの必要性を排除し、トレーニング設定を簡略化し、トレーニングとサンプリングの両方での計算を削減している。
実験により,バニラMFの3.43より1段階のFIDを実現し,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
我々はさらにImageNet 512へのアプローチを拡大し、すべてのベースラインの中でGFLOPSが最も低い3.23の競合する1ステップFIDを実現した。
コードはhttps://github.com/sony/mf-rae.comで入手できる。
関連論文リスト
- SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization [56.12853087022071]
スケーリングとトレーニングの安定性を向上させるために,新しい画素拡散デコーダアーキテクチャを導入する。
蒸留を用いて, 拡散復号器の性能を効率よく再現する。
これによりSSDDは、敵の損失なしに訓練された単一ステップ再構成に最適化された最初の拡散デコーダとなる。
論文 参考訳(メタデータ) (2025-10-06T15:57:31Z) - CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models [75.81132530657682]
Consistency Models (CM) や Mean Flow (MF) のようなフローマップモデルは、拡散モデルのODE解の長い跳躍を学習することで、少数のステップ生成を可能にする。
本研究では,(拡散)事前学習と最終フローマップトレーニングの間に,軽量な中間段階を挿入する最初の概念と実践的手法であるミドルトレーニングを紹介する。
論文 参考訳(メタデータ) (2025-09-29T09:42:08Z) - CSDformer: A Conversion Method for Fully Spike-Driven Transformer [11.852241487470797]
スパイクベースのトランスは、スパイクニューラルネットワークの性能向上を目的とした、新しいアーキテクチャである。
完全スパイク駆動変圧器の新しい変換法であるCSDformerを提案する。
CSDformerは超低レイテンシで高いパフォーマンスを実現し、計算複雑性とトレーニングオーバーヘッドの両方を劇的に削減する。
論文 参考訳(メタデータ) (2025-09-22T07:55:03Z) - TGLF-SINN: Deep Learning Surrogate Model for Accelerating Turbulent Transport Modeling in Fusion [18.028061388104963]
我々は,3つの重要なイノベーションを持つtextbfTGLF-SINN (Spectra-Informed Neural Network) を提案する。
我々の手法は、トレーニングデータを大幅に減らし、優れたパフォーマンスを実現する。
下流フラックスマッチングアプリケーションでは、NNサロゲートがTGLFの45倍のスピードアップを提供しながら、同等の精度を維持しています。
論文 参考訳(メタデータ) (2025-09-07T09:36:51Z) - CoVAE: Consistency Training of Variational Autoencoders [9.358185536754537]
本稿では,一貫性モデルからVAEアーキテクチャをトレーニングするための手法を取り入れた,新しい単一ステージ生成自動符号化フレームワークを提案する。
我々は,CoVAEが学習前の知識を使わずに,高品質なサンプルを1段階ないし数段階で生成できることを実証した。
提案手法は,自動エンコーディングと拡散型生成モデルのための統一的なフレームワークを提供し,一段階の高速自動エンコーディングのための実行可能な経路を提供する。
論文 参考訳(メタデータ) (2025-07-12T01:32:08Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - A Principled Hierarchical Deep Learning Approach to Joint Image
Compression and Classification [27.934109301041595]
本研究は,エンコーダを誘導し,コンパクトで差別的で,一般的な拡張/変換に適した特徴を抽出する3段階共同学習戦略を提案する。
CIFAR-10では最大1.5%,CIFAR-100では3%,従来のE2Eクロスエントロピートレーニングでは3%の精度向上が得られた。
論文 参考訳(メタデータ) (2023-10-30T15:52:18Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。