論文の概要: Simple ReFlow: Improved Techniques for Fast Flow Models
- arxiv url: http://arxiv.org/abs/2410.07815v1
- Date: Thu, 10 Oct 2024 11:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:46:14.532957
- Title: Simple ReFlow: Improved Techniques for Fast Flow Models
- Title(参考訳): Simple ReFlow: 高速フローモデルのための改善された技術
- Authors: Beomsu Kim, Yu-Guan Hsieh, Michal Klein, Marco Cuturi, Jong Chul Ye, Bahjat Kawar, James Thornton,
- Abstract要約: 拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
- 参考スコア(独自算出の注目度): 68.32300636049008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion and flow-matching models achieve remarkable generative performance but at the cost of many sampling steps, this slows inference and limits applicability to time-critical tasks. The ReFlow procedure can accelerate sampling by straightening generation trajectories. However, ReFlow is an iterative procedure, typically requiring training on simulated data, and results in reduced sample quality. To mitigate sample deterioration, we examine the design space of ReFlow and highlight potential pitfalls in prior heuristic practices. We then propose seven improvements for training dynamics, learning and inference, which are verified with thorough ablation studies on CIFAR10 $32 \times 32$, AFHQv2 $64 \times 64$, and FFHQ $64 \times 64$. Combining all our techniques, we achieve state-of-the-art FID scores (without / with guidance, resp.) for fast generation via neural ODEs: $2.23$ / $1.98$ on CIFAR10, $2.30$ / $1.91$ on AFHQv2, $2.84$ / $2.67$ on FFHQ, and $3.49$ / $1.74$ on ImageNet-64, all with merely $9$ neural function evaluations.
- Abstract(参考訳): 拡散およびフローマッチングモデルは、顕著な生成性能を達成するが、多くのサンプリングステップのコストがかかると、推論が遅くなり、時間クリティカルなタスクへの適用性が制限される。
ReFlowプロシージャは、生成軌道のストレート化によってサンプリングを高速化することができる。
しかし、ReFlowは反復的な手順であり、典型的にはシミュレーションデータのトレーニングを必要とし、結果としてサンプルの品質が低下する。
サンプル劣化を軽減するため,ReFlowの設計空間を検証し,事前のヒューリスティックな実践における潜在的な落とし穴を浮き彫りにする。
次に, CIFAR10 3,2 \times 32$, AFHQv2 6,4 \times 64$, FFHQ 6,4 \times 64$について, 徹底的なアブレーション研究により検証した。
すべての技術を組み合わせて、ニューラルネットワークによる高速な生成のための最先端のFIDスコア(/ガイダンスなし、参照なし)を、2.23$ / $1.98$ on CIFAR10、$2.30$ / $1.91$ on AFHQv2、$2.84$ / $2.67$ on FFHQ、$3.49$ / $1.74$ on ImageNet-64。
関連論文リスト
- Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。
我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。
我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文 参考訳(メタデータ) (2023-12-20T18:08:02Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation [33.70116170511312]
安定拡散(SD)を超高速1ステップモデルに変換するための新しいテキスト条件付きパイプラインを提案する。
我々は、SDレベルの画質を持つ最初の1ステップ拡散ベースのテキスト・ツー・イメージ・ジェネレータを作成し、MS COCO 2017-5kで23.3ドルのFIDを達成した。
論文 参考訳(メタデータ) (2023-09-12T16:42:09Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Better Training of GFlowNets with Local Credit and Incomplete
Trajectories [81.14310509871935]
エネルギー関数が終端状態だけでなく中間状態にも適用できる場合を考える。
これは例えば、エネルギー関数が加法的であるときに達成され、軌道に沿って項が利用できる。
これにより、不完全なトラジェクトリであってもパラメータの更新に適用可能なトレーニングの目標が可能になる。
論文 参考訳(メタデータ) (2023-02-03T12:19:42Z) - FInC Flow: Fast and Invertible $k \times k$ Convolutions for Normalizing
Flows [2.156373334386171]
可逆畳み込みは、表現的正規化フローベース生成モデルを構築する上で不可欠な要素である。
我々は、$k倍の畳み込み層とDeep Normalizing Flowアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-01-23T04:31:03Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Emformer: Efficient Memory Transformer Based Acoustic Model For Low
Latency Streaming Speech Recognition [23.496223778642758]
長期履歴コンテキストを拡張メモリバンクに蒸留することで、自己注意の計算複雑性を低減する。
キャッシュ機構は、キーと値の計算を左のコンテキストの自己アテンションに保存する。
平均遅延960ミリ秒では、EmformerはテストクリーンでWER$2.50%、他で$5.62%となる。
論文 参考訳(メタデータ) (2020-10-21T04:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。