論文の概要: Weak-to-Strong Diffusion with Reflection
- arxiv url: http://arxiv.org/abs/2502.00473v3
- Date: Thu, 24 Apr 2025 16:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 21:09:46.45258
- Title: Weak-to-Strong Diffusion with Reflection
- Title(参考訳): 反射を伴う弱-ストロング拡散
- Authors: Lichen Bai, Masashi Sugiyama, Zeke Xie,
- Abstract要約: Weak-to-Strong Diffusion (W2SD)を提案する。
W2SDは実データ分布の領域へのサンプリング軌道に沿って潜伏変数を操る。
広範囲な実験により、W2SDは人間の嗜好、美的品質、即効性を改善することが示されている。
- 参考スコア(独自算出の注目度): 56.39451539396458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to bridge the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.
- Abstract(参考訳): 拡散生成モデルの目標は、勾配スコアマッチングを通じて学習した分布と実データ分布とを一致させることである。
しかし、データ品質、モデリング戦略、アーキテクチャ設計のトレーニングにおける固有の制限は、生成された出力と実際のデータの間に必然的にギャップを生じさせます。
このギャップを減らすために,既存の弱いモデルと強いモデル(弱いモデルと強いモデルとの差分)を推定し,理想的なモデルと強いモデルとのギャップを埋める新しいフレームワークであるW2SDを提案する。
W2SD は実データ分布の領域へのサンプリング軌道に沿って潜伏変数を導出する。
W2SDは非常に柔軟で広く適用でき、弱いモデルペアの戦略的選択(例:DreamShaper vs. SD1.5、MoEのエキスパート対悪い専門家)を通じて多様な改善を可能にする。
大規模な実験により、W2SDは人間の嗜好、美的品質、即効性を改善し、様々なモダリティ(例:画像、ビデオ)、アーキテクチャ(例:UNetベース、DiTベース、MoE)、ベンチマークでSOTAパフォーマンスを達成する。
例えば、W2SDのJuggernaut-XLは、HPSv2の勝利率を元の結果よりも90%向上させることができる。
さらに、W2SDによる性能向上は、計算オーバーヘッドの増大を著しく上回り、異なる弱差による累積的な改善により、実用性とデプロイ性はさらに強化された。
関連論文リスト
- CoRe^2: Collect, Reflect and Refine to Generate Better and Faster [11.230943283470522]
本稿では,3つのサブプロセス(コレクタ,リフレクション,リファイン)からなる新しいプラグアンドプレイ推論パラダイムであるCoRe2を紹介する。
CoRe2は、条件付き出力を洗練させるために弱いガイダンスを使用し、それによってモデルの能力を改善し、高周波でリアルなコンテンツを生成する。
HPD v2、Pick-of-Pic、Drawbench、GenEval、T2I-Compbenchで大幅に性能が向上した。
論文 参考訳(メタデータ) (2025-03-12T15:15:25Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Improved Training Technique for Latent Consistency Models [18.617862678160243]
一貫性モデルは、単一のステップまたは複数のステップで高品質なサンプルを生成することができる。
画素空間と潜伏空間の統計的差異を解析し、潜伏データがしばしば非常にインパルス的な外れ値を含むことを発見した。
我々は,早期に拡散損失を導入し,さらに性能を高めるために最適な輸送(OT)結合を用いる。
論文 参考訳(メタデータ) (2025-02-03T15:25:58Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Distributionally Robust Cross Subject EEG Decoding [15.211091130230589]
本稿では,デコードロバスト性を改善するために,データ上で動的に進化する原理的手法を提案する。
We derived a general data evolution framework based on Wasserstein gradient flow (WGF) and provide two different form of evolution within the framework。
提案手法は、さらなる改善のために、他のデータ拡張手法と容易に統合できる。
論文 参考訳(メタデータ) (2023-08-19T11:31:33Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。