論文の概要: SimFlow: Simplified and End-to-End Training of Latent Normalizing Flows
- arxiv url: http://arxiv.org/abs/2512.04084v1
- Date: Wed, 03 Dec 2025 18:59:57 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 14:56:31.880817
- Title: SimFlow: Simplified and End-to-End Training of Latent Normalizing Flows
- Title(参考訳): SimFlow: 潜在正規化フローの簡易・エンドツーエンドトレーニング
- Authors: Qinyu Zhao, Guangting Zheng, Tao Yang, Rui Zhu, Xingjian Leng, Stephen Gould, Liang Zheng,
- Abstract要約: 分散(VAEエンコーダによって予測される)を定数に修正する方法を見つける。
ImageNet $256 256$ 生成タスクでは、我々のモデル SimFlow が gFID スコア 2.15 を取得し、最先端のSTARFlow (gFID 2.40) よりも優れている。
SimFlowは、エンドツーエンドの表現アライメントアライメント(REPA-E)メソッドとシームレスに統合することができ、改良されたgFID 1.91を実現し、NF間の新しい状態を設定する。
- 参考スコア(独自算出の注目度): 37.7899995917052
- License:
- Abstract: Normalizing Flows (NFs) learn invertible mappings between the data and a Gaussian distribution. Prior works usually suffer from two limitations. First, they add random noise to training samples or VAE latents as data augmentation, introducing complex pipelines including extra noising and denoising steps. Second, they use a pretrained and frozen VAE encoder, resulting in suboptimal reconstruction and generation quality. In this paper, we find that the two issues can be solved in a very simple way: just fixing the variance (which would otherwise be predicted by the VAE encoder) to a constant (e.g., 0.5). On the one hand, this method allows the encoder to output a broader distribution of tokens and the decoder to learn to reconstruct clean images from the augmented token distribution, avoiding additional noise or denoising design. On the other hand, fixed variance simplifies the VAE evidence lower bound, making it stable to train an NF with a VAE jointly. On the ImageNet $256 \times 256$ generation task, our model SimFlow obtains a gFID score of 2.15, outperforming the state-of-the-art method STARFlow (gFID 2.40). Moreover, SimFlow can be seamlessly integrated with the end-to-end representation alignment (REPA-E) method and achieves an improved gFID of 1.91, setting a new state of the art among NFs.
- Abstract(参考訳): 正規化フロー(NF)は、データとガウス分布の間の可逆写像を学習する。
以前の作品は通常2つの制限に悩まされる。
まず、トレーニングサンプルやVAEラテントをデータ拡張としてランダムノイズを追加し、余分なノイズ発生ステップやノイズ発生ステップを含む複雑なパイプラインを導入します。
第2に、トレーニング済みで凍結されたVAEエンコーダを使用しており、その結果、最適な再構築と生成品質が得られる。
本稿では,差分(VAEエンコーダで予測される)を定数(eg , 0.5)に固定するだけで,この2つの問題を非常に単純な方法で解くことができることを示す。
一方、この方法では、エンコーダはより広範なトークン分布を出力し、デコーダは、付加されたトークン分布からクリーンなイメージを再構築し、追加のノイズやデノーミング設計を避けることができる。
一方、固定分散は、VAEエビデンスを低い境界で単純化し、VAEと共同でNFを訓練することが安定である。
ImageNet $256 \times 256$ 生成タスクでは、モデルSimFlowがgFIDスコア2.15を取得し、最先端のSTARFlow(gFID 2.40)よりも優れている。
さらに、SimFlowは、エンドツーエンドの表現アライメントアライメント(REPA-E)メソッドとシームレスに統合することができ、改良されたgFID 1.91を実現し、NF間の新しい最先端設定を実現している。
関連論文リスト
- MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - Normalizing Flows are Capable Generative Models [48.31226028595099]
TarFlowはシンプルでスケーラブルなアーキテクチャで、高性能なNFモデルを実現する。
エンドツーエンドのトレーニングは簡単で、ピクセルを直接モデリングして生成することができる。
TarFlowは、画像の確率推定に新たな最先端結果を設定し、以前のベストメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-12-09T09:28:06Z) - Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation [33.70116170511312]
安定拡散(SD)を超高速1ステップモデルに変換するための新しいテキスト条件付きパイプラインを提案する。
我々は、SDレベルの画質を持つ最初の1ステップ拡散ベースのテキスト・ツー・イメージ・ジェネレータを作成し、MS COCO 2017-5kで23.3ドルのFIDを達成した。
論文 参考訳(メタデータ) (2023-09-12T16:42:09Z) - DeFlow: Learning Complex Image Degradations from Unpaired Data with
Conditional Flows [145.83812019515818]
本論文では,不対データから画像劣化を学習するDeFlowを提案する。
共有フローデコーダネットワークの潜在空間における劣化過程をモデル化する。
共同画像復元と超解像におけるDeFlowの定式化を検証した。
論文 参考訳(メタデータ) (2021-01-14T18:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。