論文の概要: SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models
- arxiv url: http://arxiv.org/abs/2604.12617v2
- Date: Fri, 17 Apr 2026 10:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.295728
- Title: SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models
- Title(参考訳): SOAR: 拡散モデルにおける最適配向と縮小のための自己補正
- Authors: You Qin, Linqing Wang, Hao Fei, Roger Zimmermann, Liefeng Bo, Qinglin Lu, Chunyu Wang,
- Abstract要約: 拡散モデルのための後トレーニングパイプラインには、キュレートされたデータに対する教師付き微調整(SFT)と報酬モデルによる強化学習(RL)の2段階がある。
本稿では,このギャップを埋めるバイアス補正ポストトレーニング法であるSOAR(Self-Correction for Optimal Alignment and Refinement)を提案する。
オンライン政治であり、報酬なしであり、クレジット割り当ての問題なく、時間ごとの密集した監督を提供する。
- 参考スコア(独自算出の注目度): 48.335262141752715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The post-training pipeline for diffusion models currently has two stages: supervised fine-tuning (SFT) on curated data and reinforcement learning (RL) with reward models. A fundamental gap separates them. SFT optimizes the denoiser only on ground-truth states sampled from the forward noising process; once inference deviates from these ideal states, subsequent denoising relies on out-of-distribution generalization rather than learned correction, exhibiting the same exposure bias that afflicts autoregressive models, but accumulated along the denoising trajectory instead of the token sequence. RL can in principle address this mismatch, yet its terminal reward signal is sparse, suffers from credit-assignment difficulty, and risks reward hacking. We propose SOAR (Self-Correction for Optimal Alignment and Refinement), a bias-correction post-training method that fills this gap. Starting from a real sample, SOAR performs a single stop-gradient rollout with the current model, re-noises the resulting off-trajectory state, and supervises the model to steer back toward the original clean target. The method is on-policy, reward-free, and provides dense per-timestep supervision with no credit-assignment problem. On SD3.5-Medium, SOAR improves GenEval from 0.70 to 0.78 and OCR from 0.64 to 0.67 over SFT, while simultaneously raising all model-based preference scores. In controlled reward-specific experiments, SOAR surpasses Flow-GRPO in final metric value on both aesthetic and text-image alignment tasks, despite having no access to a reward model. Since SOAR's base loss subsumes the standard SFT objective, it can directly replace SFT as a stronger first post-training stage after pretraining, while remaining fully compatible with subsequent RL alignment.
- Abstract(参考訳): 拡散モデルのための後トレーニングパイプラインは、現在、キュレートされたデータに対する教師付き微調整(SFT)と、報酬モデルによる強化学習(RL)の2段階がある。
根本的なギャップはそれらを分離する。
SFTは、フォワードノイズ発生過程からサンプリングされた基底構造状態のみをデノワザを最適化し、推論がこれらの理想状態から逸脱すると、その後のデノワザは学習された補正ではなく、アウト・オブ・ディストリビューションの一般化に依存し、自己回帰モデルに干渉するのと同じ露出バイアスを示すが、トークンシーケンスではなくデノワザの軌道に沿って蓄積される。
RLは原則としてこのミスマッチに対処できるが、端末の報酬信号は希少であり、クレジット割り当ての困難に悩まされ、報酬のハッキングのリスクがある。
本稿では,このギャップを埋めるバイアス補正ポストトレーニング法であるSOAR(Self-Correction for Optimal Alignment and Refinement)を提案する。
実際のサンプルから始めて、SOARは、現在のモデルで1つの停止段階的なロールアウトを実行し、結果の軌道外状態を再ノイズ化し、モデルを元のクリーンターゲットに戻すように監督します。
この方法は、オンラインで、報酬なしであり、クレジット割り当ての問題なく、時間ごとの密集した監督を提供する。
SD3.5-Mediumでは、SOARはGenEvalを0.70から0.78に改善し、OCRは0.64から0.67に改善した。
コントロールされた報酬特化実験では、報酬モデルにアクセスできないにもかかわらず、SOARは美的およびテキストイメージのアライメントタスクの最終的な測定値でFlow-GRPOを上回ります。
SOARのベース損失は標準のSFT目標を仮定するので、事前訓練後、SFTをより強力な訓練後の第1段階として置き換えることができるが、その後のRLアライメントと完全に互換性が保たれる。
関連論文リスト
- Self-Adversarial One Step Generation via Condition Shifting [11.426065945265647]
APEXは、フローモデルから不均一に抽出された逆補正信号のフレームワークである。
私たちの0.6BモデルはFLUX-Schnell 12B(20$times$ more parameters)を1ステップ品質で上回ります。
Qwen-Image 20BのLoRAチューニングにより、APEXは6時間でNFE=1のGenEvalスコア0.89に達し、最初の50ステップの教師(0.87)を超え、15.33$times$推論スピードアップを提供する。
論文 参考訳(メタデータ) (2026-04-14T05:54:33Z) - Diffusion Reinforcement Learning via Centered Reward Distillation [35.979608265594685]
フォワードプロセス微細チューニング上に構築されたKL正規化報酬モデルから導出した拡散RLフレームワークである textbf Reward Distillation (CRD) を提案する。
信頼性の高いテキスト・画像の微調整を可能にするため,分布のドリフトを明示的に制御する手法を提案する。
textttGenEval と textttOCR rewards によるテキスト・ツー・イメージのポストトレーニング実験では、競合する SOTA の報酬最適化が高速収束と報酬ハッキングの好みの低減をもたらすことが示された。
論文 参考訳(メタデータ) (2026-03-14T21:29:33Z) - How Far Can Unsupervised RLVR Scale LLM Training? [57.44753418846446]
検証可能な報酬を伴う教師なし強化学習(URLVR)は、監督ボトルネックを越えてLLMトレーニングをスケールするための経路を提供する。
最近の研究は、モデル固有の信号を活用し、期待できる早期の利得を示しているが、その可能性と限界は未だ不明である。
我々は、URLVRメソッドを報酬源に基づく固有対外部に分類し、統一された理論的枠組みを確立する。
論文 参考訳(メタデータ) (2026-03-09T17:38:11Z) - Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models [35.36024202299119]
拡散の政策段階的手法である textbfAdvantage Weighted Matching (AWM) を導入する。
AWMは、事前学習と同一のモデリング目標を維持しながら、高逆サンプルの影響を高め、低逆サンプルを抑制する。
これは事前学習とRLを概念的かつ実践的に統一し、政策次数理論と整合性を持ち、分散を減少させ、より高速な収束をもたらす。
論文 参考訳(メタデータ) (2025-09-29T17:02:20Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。