論文の概要: STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis
- arxiv url: http://arxiv.org/abs/2506.06276v1
- Date: Fri, 06 Jun 2025 17:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.579872
- Title: STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis
- Title(参考訳): STARFlow:高分解能画像合成のための遅延正規化流れのスケーリング
- Authors: Jiatao Gu, Tianrong Chen, David Berthelot, Huangjie Zheng, Yuyang Wang, Ruixiang Zhang, Laurent Dinh, Miguel Angel Bautista, Josh Susskind, Shuangfei Zhai,
- Abstract要約: 本稿では,高分解能画像合成において高い性能を実現する正規化フローに基づくスケーラブルな生成モデルを提案する。
STARFlowの中核はTransformer Autoregressive Flow (TARFlow)であり、これは流れの正規化の表現力とAutoregressive Transformerの構造的モデリング能力を組み合わせたものである。
- 参考スコア(独自算出の注目度): 44.2114053357308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present STARFlow, a scalable generative model based on normalizing flows that achieves strong performance in high-resolution image synthesis. The core of STARFlow is Transformer Autoregressive Flow (TARFlow), which combines the expressive power of normalizing flows with the structured modeling capabilities of Autoregressive Transformers. We first establish the theoretical universality of TARFlow for modeling continuous distributions. Building on this foundation, we introduce several key architectural and algorithmic innovations to significantly enhance scalability: (1) a deep-shallow design, wherein a deep Transformer block captures most of the model representational capacity, complemented by a few shallow Transformer blocks that are computationally efficient yet substantially beneficial; (2) modeling in the latent space of pretrained autoencoders, which proves more effective than direct pixel-level modeling; and (3) a novel guidance algorithm that significantly boosts sample quality. Crucially, our model remains an end-to-end normalizing flow, enabling exact maximum likelihood training in continuous spaces without discretization. STARFlow achieves competitive performance in both class-conditional and text-conditional image generation tasks, approaching state-of-the-art diffusion models in sample quality. To our knowledge, this work is the first successful demonstration of normalizing flows operating effectively at this scale and resolution.
- Abstract(参考訳): 本稿では,高分解能画像合成において高い性能が得られる正規化フローに基づくスケーラブルな生成モデルSTARFlowを提案する。
STARFlowの中核はTransformer Autoregressive Flow (TARFlow)であり、これは流れの正規化の表現力とAutoregressive Transformerの構造的モデリング能力を組み合わせたものである。
まず、連続分布をモデル化するためのTARFlowの理論的普遍性を確立する。
この基盤を基盤として,1)深層トランスフォーマーブロックがモデル表現能力の大部分をキャプチャする深層設計,2)直接ピクセルレベルのモデリングよりも有効である事前学習オートエンコーダの潜在空間におけるモデリング,3)サンプル品質を大幅に向上させる新しいガイダンスアルゴリズムを提案する。
重要なことは、我々のモデルは終端から終端の正規化フローのままであり、離散化なしで連続空間における極大極大トレーニングを可能にする。
STARFlowは、クラス条件とテキスト条件の両方のイメージ生成タスクにおいて競合性能を達成し、サンプル品質の最先端拡散モデルにアプローチする。
我々の知る限り、この研究は、このスケールと解像度で効果的に動作するフローを正規化する最初の成功例である。
関連論文リスト
- HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance [70.69373563281324]
HiFlowはトレーニング不要でモデルに依存しないフレームワークで、事前トレーニングされたフローモデルの解像度ポテンシャルを解放する。
HiFlowはT2Iモデルの高解像度画像合成の品質を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-08T17:30:40Z) - Jet: A Modern Transformer-Based Normalizing Flow [62.2573739835562]
本稿では,結合型正規化フローモデルの設計を再考する。
よりシンプルなアーキテクチャで、最先端の定量的、質的なパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-12-19T18:09:42Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Free-form Flows: Make Any Architecture a Normalizing Flow [8.163244519983298]
本研究では,変数の変動の勾配を効率的に推定する訓練手法を開発した。
これにより、任意の次元保存ニューラルネットワークが、最大限のトレーニングを通じて生成モデルとして機能することが可能になる。
我々は$E(n)$-equivariantネットワークを用いた分子生成ベンチマークにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2023-10-25T13:23:08Z) - A Tale of Two Flows: Cooperative Learning of Langevin Flow and
Normalizing Flow Toward Energy-Based Model [43.53802699867521]
本研究では2つの生成フローモデルの協調学習について検討し、共同合成例に基づいて2つのモデルを反復的に更新する。
訓練されたCoopFlowは、現実的なイメージ、画像再構成、画像間の補間が可能であることを示す。
論文 参考訳(メタデータ) (2022-05-13T23:12:38Z) - CAFLOW: Conditional Autoregressive Flows [1.2233362977312945]
CAFLOWは,画像から画像への変換モデルである。
我々は条件付け画像をマルチスケール正規化フローを用いて潜時符号化のシーケンスに変換する。
提案するフレームワークは,画像から画像への翻訳作業でよく機能する。
論文 参考訳(メタデータ) (2021-06-04T14:57:41Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。