論文の概要: Self-Adversarial One Step Generation via Condition Shifting
- arxiv url: http://arxiv.org/abs/2604.12322v1
- Date: Tue, 14 Apr 2026 05:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.270369
- Title: Self-Adversarial One Step Generation via Condition Shifting
- Title(参考訳): 条件シフトによる自己逆1ステップ生成
- Authors: Deyuan Liu, Peng Sun, Yansen Han, Zhenglin Cheng, Chuyan Chen, Tao Lin,
- Abstract要約: APEXは、フローモデルから不均一に抽出された逆補正信号のフレームワークである。
私たちの0.6BモデルはFLUX-Schnell 12B(20$times$ more parameters)を1ステップ品質で上回ります。
Qwen-Image 20BのLoRAチューニングにより、APEXは6時間でNFE=1のGenEvalスコア0.89に達し、最初の50ステップの教師(0.87)を超え、15.33$times$推論スピードアップを提供する。
- 参考スコア(独自算出の注目度): 11.426065945265647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The push for efficient text to image synthesis has moved the field toward one step sampling, yet existing methods still face a three way tradeoff among fidelity, inference speed, and training efficiency. Approaches that rely on external discriminators can sharpen one step performance, but they often introduce training instability, high GPU memory overhead, and slow convergence, which complicates scaling and parameter efficient tuning. In contrast, regression based distillation and consistency objectives are easier to optimize, but they typically lose fine details when constrained to a single step. We present APEX, built on a key theoretical insight: adversarial correction signals can be extracted endogenously from a flow model through condition shifting. Using a transformation creates a shifted condition branch whose velocity field serves as an independent estimator of the model's current generation distribution, yielding a gradient that is provably GAN aligned, replacing the sample dependent discriminator terms that cause gradient vanishing. This discriminator free design is architecture preserving, making APEX a plug and play framework compatible with both full parameter and LoRA based tuning. Empirically, our 0.6B model surpasses FLUX-Schnell 12B (20$\times$ more parameters) in one step quality. With LoRA tuning on Qwen-Image 20B, APEX reaches a GenEval score of 0.89 at NFE=1 in 6 hours, surpassing the original 50-step teacher (0.87) and providing a 15.33$\times$ inference speedup. Code is available https://github.com/LINs-lab/APEX.
- Abstract(参考訳): 画像合成への効率的なテキストのプッシュは、フィールドを1ステップのサンプリングへと移動させたが、既存の方法は、忠実さ、推論速度、トレーニング効率の3つのトレードオフに直面している。
外部のディスクリミネータに依存するアプローチでは、一段階のパフォーマンスが向上するが、トレーニングの不安定性、GPUメモリのオーバーヘッドの増大、スケーリングとパラメータの効率的なチューニングを複雑化する緩やかな収束がしばしば導入される。
対照的に、回帰に基づく蒸留と整合性の目的は最適化が容易であるが、通常、単一のステップに制約された場合、細部が失われる。
逆補正信号は条件シフトによって流れモデルから不均一に抽出できる。
変換を用いることで、速度場がモデルの現在の生成分布の独立推定器として機能するシフト条件分岐を生成し、確実にGAN整列した勾配を生成し、勾配を消失させるサンプル依存判別器用語を置き換える。
この差別化要因のない設計はアーキテクチャ保存であり、APEXは完全なパラメータとLoRAベースのチューニングの両方と互換性のあるプラグアンドプレイフレームワークとなる。
私たちの0.6Bモデルは、FLUX-Schnell 12B(20$\times$ more parameters)を1ステップ品質で上回ります。
Qwen-Image 20BのLoRAチューニングにより、APEXは6時間でNFE=1のGenEvalスコア0.89に達し、最初の50ステップの教師(0.87)を超え、15.33$\times$推論スピードアップを提供する。
コードはhttps://github.com/LINs-lab/APEX.comで入手できる。
関連論文リスト
- FAIL: Flow Matching Adversarial Imitation Learning for Image Generation [52.643484089126844]
フローマッチングモデルのポストトレーニング-高品質な目標値による出力分布の調整-数学的にはImitation Learningと等価である。
本研究では,明示的な報酬やペア比較を伴わずに,対人訓練による政策-専門的差異を最小限に抑えるフローマッチング・アドリアラーニング(FAIL)を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:36:33Z) - RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。
本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。
RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文 参考訳(メタデータ) (2026-02-05T06:41:11Z) - SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping [30.85025293160079]
生成プロセスにおける高周波コンポーネント、または後続のステップは、推論遅延に不均等に寄与する。
ステップ冗長性と非条件分岐冗長性の2つの主要な非効率性の原因を同定する。
本稿では、不要な生成ステップを選択的に省略して効率を向上させる自動ステップスキッピング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-10T15:35:29Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - HyperFlow: Gradient-Free Emulation of Few-Shot Fine-Tuning [20.308785668386424]
計算勾配を使わずに勾配降下をエミュレートし,効率的なテスト時間適応を実現する手法を提案する。
具体的には、通常の微分方程式(ODE)のオイラー離散化として勾配降下を定式化し、タスク条件ドリフトを予測するために補助ネットワークを訓練する。
適応は単純な数値積分に還元され、補助ネットワークのわずかな前方通過しか必要としない。
論文 参考訳(メタデータ) (2025-04-21T03:04:38Z) - Optimizing Asynchronous Federated Learning: A Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency [2.1990852305468533]
同期フェデレーションラーニング(FL)は、ストラグラー効果によりクライアント数に悪影響を及ぼす。
本研究では,非同期FLアルゴリズムにおける設計選択の影響をよりよく理解するために,モデリングと解析に頼っている。
特に,モデルパラメータの安定化を回避し,勾配推定誤差の最小化という,非同期FLの最適化のための基本的なトレードオフを特徴付ける。
論文 参考訳(メタデータ) (2025-02-12T08:38:13Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。