論文の概要: Asymmetric Flow Models
- arxiv url: http://arxiv.org/abs/2605.12964v1
- Date: Wed, 13 May 2026 03:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.796549
- Title: Asymmetric Flow Models
- Title(参考訳): 非対称流れモデル
- Authors: Hansheng Chen, Jan Ackermann, Minseo Kim, Gordon Wetzstein, Leonidas Guibas,
- Abstract要約: 本稿では,データ予測を全次元に保ちながら低ランク部分空間に雑音予測を制限したランク非対称な速度パラメータ化を提案する。
AsymFlowは、ネットワークアーキテクチャやトレーニング/サンプリング手順を変更することなく、全次元の速度を解析的に回復する。
FLUX.2 klein 9B から微調整された画素 AsymFlow モデルにより,画素空間のテキスト・画像生成技術が新たに確立されたことを示す。
- 参考スコア(独自算出の注目度): 35.8386911591457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-based generation in high-dimensional spaces is difficult because velocity prediction requires modeling high-dimensional noise, even when data has strong low-rank structure. We present Asymmetric Flow Modeling (AsymFlow), a rank-asymmetric velocity parameterization that restricts noise prediction to a low-rank subspace while keeping data prediction full-dimensional. From this asymmetric prediction, AsymFlow analytically recovers the full-dimensional velocity without changing the network architecture or training/sampling procedures. On ImageNet 256$\times$256, AsymFlow achieves a leading 1.57 FID, outperforming prior DiT/JiT-like pixel diffusion models by a large margin. AsymFlow also provides the first-ever route for finetuning pretrained latent flow models into pixel-space models: aligning the low-rank pixel subspace to the latent space gives a seamless initialization that preserves the latent model's high-level semantics and structure, so finetuning mainly improves low-level mismatches rather than relearning pixel generation. We show that the pixel AsymFlow model finetuned from FLUX.2 klein 9B establishes a new state of the art for pixel-space text-to-image generation, beating its latent base on HPSv3, DPG-Bench, and GenEval while qualitatively showing substantially improved visual realism.
- Abstract(参考訳): 高次元空間でのフローベース生成は、データが強い低ランク構造であっても、速度予測は高次元ノイズをモデル化する必要があるため困難である。
本稿では,データ予測をフル次元に保ちながら低ランク部分空間に雑音予測を制限し,非対称な速度パラメータ化を行う非対称流れモデリング(AsymFlow)を提案する。
この非対称予測から、AsymFlowはネットワークアーキテクチャやトレーニング/サンプリング手順を変更することなく、全次元の速度を解析的に復元する。
ImageNet 256$\times$256では、AsymFlowは1.57 FIDを達成し、DiT/JiTライクなピクセル拡散モデルよりも大きなマージンで優れている。
AsymFlowはまた、事前訓練された遅延フローモデルをピクセル空間モデルに微調整するための最初のルートも提供している: 低ランクのピクセルサブスペースを潜在空間に整列させることで、潜在モデルの高レベルなセマンティクスと構造を保存するシームレスな初期化が可能になるため、微調整は主に画素生成の再学習よりも低レベルなミスマッチを改善する。
FLUX.2 klein 9B から微調整された画素 AsymFlow モデルでは,HPSv3, DPG-Bench, GenEval の潜時ベースを圧倒し, 視覚リアリズムを大幅に改善した。
関連論文リスト
- Point-MF: One-step Point Cloud Generation from a Single Image via Mean Flows [4.719615308536812]
単一画像の点雲再構成は、単一のRGB画像から隠蔽された部分を含む完全な3D形状を推測しなければならない。
低NFE単一像点雲再構成のための平均フローベースのフレームワークであるPoint-MFを提案する。
論文 参考訳(メタデータ) (2026-04-27T15:10:47Z) - One-step Latent-free Image Generation with Pixel Mean Flows [22.294629970410508]
ネットワーク出力空間と損失空間を別々に定式化する「ピクセル平均フロー」(pMF)を提案する。
pMFは、256x256解像度 (2.22 FID) と512x512解像度 (2.48 FID) でImageNet上の1ステップの潜時生成の強力な結果を得る
論文 参考訳(メタデータ) (2026-01-29T18:59:56Z) - Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling [68.76215229126886]
Decoupled MeanFlowは、フローモデルをアーキテクチャ変更なしにフローマップモデルに変換するシンプルなデコード戦略である。
提案手法では, 拡散変圧器の最終ブロックを後続の時間ステップに設定し, 事前学習した流れモデルを直接フローマップとして再利用する。
ImageNet 256x256 と 512x512 では、われわれのモデルはそれぞれ2.16 と2.12 の1ステップ FID に達し、先行技術よりも大きなマージンで上回っている。
論文 参考訳(メタデータ) (2025-10-28T14:43:48Z) - FARMER: Flow AutoRegressive Transformer over Pixels [39.864972164994946]
本稿では,正規化フロー(NF)と自己回帰(AR)モデルを統一した新しいエンドツーエンド生成フレームワークを提案する。
FARMERは非可逆自己回帰流を用いて画像を潜在シーケンスに変換し、その分布は自己回帰モデルによって暗黙的にモデル化される。
FARMERは,既存の画素ベース生成モデルと比較して,競合性能が高いことを示す。
論文 参考訳(メタデータ) (2025-10-27T17:54:08Z) - STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis [44.2114053357308]
本稿では,高分解能画像合成において高い性能を実現する正規化フローに基づくスケーラブルな生成モデルを提案する。
STARFlowの中核はTransformer Autoregressive Flow (TARFlow)であり、これは流れの正規化の表現力とAutoregressive Transformerの構造的モデリング能力を組み合わせたものである。
論文 参考訳(メタデータ) (2025-06-06T17:58:39Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。
ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。
提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文 参考訳(メタデータ) (2025-05-19T17:59:42Z) - Gaussian Mixture Flow Matching Models [63.092956669059824]
拡散モデルは正規分布をガウス平均として近似し,その平均を推定する一方,フローマッチングモデルはガウス平均をフロー速度としてパラメータ化する。
離散化誤差による数段階のサンプリングでは性能が低下し、分類器フリーガイダンス(CFG)では過飽和色が生じる傾向にある。
本稿では,CFGの過飽和問題を緩和し,画像生成品質を向上する新しい確率的ガイダンス手法を提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:42Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。