論文の概要: MARBLE: Multi-Aspect Reward Balance for Diffusion RL
- arxiv url: http://arxiv.org/abs/2605.06507v1
- Date: Thu, 07 May 2026 16:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.988734
- Title: MARBLE: Multi-Aspect Reward Balance for Diffusion RL
- Title(参考訳): MARBLE:拡散RLのためのマルチアスペクトリワードバランス
- Authors: Canyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li, Chunhua Shen,
- Abstract要約: 強化学習は、拡散モデルと人間の嗜好を整合させる主要なアプローチとなっている。
既存のプラクティスは、報酬ごとに1つのスペシャリストモデルをトレーニングすることで、複数の報酬を処理します。
我々は,各報酬に対する独立な優位推定器を維持する勾配空間最適化フレームワークMARBLEを提案する。
- 参考スコア(独自算出の注目度): 71.6241143519038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning fine-tuning has become the dominant approach for aligning diffusion models with human preferences. However, assessing images is intrinsically a multi-dimensional task, and multiple evaluation criteria need to be optimized simultaneously. Existing practice deal with multiple rewards by training one specialist model per reward, optimizing a weighted-sum reward $R(x)=\sum_k w_k R_k(x)$, or sequentially fine-tuning with a hand-crafted stage schedule. These approaches either fail to produce a unified model that can be jointly trained on all rewards or necessitates heavy manually tuned sequential training. We find that the failure stems from using a naive weighted-sum reward aggregation. This approach suffers from a sample-level mismatch because most rollouts are specialist samples, highly informative for certain reward dimensions but irrelevant for others; consequently, weighted summation dilutes their supervision. To address this issue, we propose MARBLE (Multi-Aspect Reward BaLancE), a gradient-space optimization framework that maintains independent advantage estimators for each reward, computes per-reward policy gradients, and harmonizes them into a single update direction without manually-tuned reward weighting, by solving a Quadratic Programming problem. We further propose an amortized formulation that exploits the affine structure of the loss used in DiffusionNFT, to reduce the per-step cost from K+1 backward passes to near single-reward baseline cost, together with EMA smoothing on the balancing coefficients to stabilize updates against transient single-batch fluctuations. On SD3.5 Medium with five rewards, MARBLE improves all five reward dimensions simultaneously, turns the worst-aligned reward's gradient cosine from negative under weighted summation in 80% of mini-batches to consistently positive, and runs at 0.97X the training speed of baseline training.
- Abstract(参考訳): 強化学習の微調整は、拡散モデルと人間の嗜好を整合させる主要なアプローチとなっている。
しかし,画像評価は本質的に多次元課題であり,複数の評価基準を同時に最適化する必要がある。
既存のプラクティスは、報酬ごとに1つのスペシャリストモデルをトレーニングし、重み付きサム報酬を$R(x)=\sum_k w_k R_k(x)$を最適化するか、手作りのステージスケジュールで順次微調整することで、複数の報酬を扱う。
これらのアプローチは、すべての報酬に対して共同でトレーニングできる統一モデルの作成に失敗するか、あるいは手動で調整されたシーケンシャルトレーニングを必要とする。
失敗の原因は、単純重み付け報酬アグリゲーションを使うことにある。
このアプローチはサンプルレベルのミスマッチに悩まされるが、ほとんどのロールアウトは専門的なサンプルであり、特定の報酬の次元に対して非常に有益であるが、他の人には無関係である。
この問題に対処するために、我々は、各報酬に対する独立な優位推定器を維持し、逆ポリシー勾配を計算し、擬似プログラミング問題を解くことで、手動で調整された報酬重み付けをせずに単一の更新方向に調和する勾配空間最適化フレームワーク MARBLE (Multi-Aspect Reward BaLancE) を提案する。
さらに,DiffusionNFTにおける損失のアフィン構造を利用して,K+1の後方通過からほぼ一逆ベースラインコストへのステップあたりのコストを削減し,バランス係数を滑らかにすることで,過渡的な単一バッチ変動に対する更新を安定化するアフィン構造を提案する。
5つの報酬を持つSD3.5ミディアムでは、MARBLEは5つの報酬の次元を同時に改善し、最低整列の報酬の勾配コサインを80%のミニバッチの重み付け和で負の値から常に正にし、ベースライントレーニングのトレーニング速度の0.97倍の速度で走らせる。
関連論文リスト
- Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models [54.597200388738656]
Reward-based fine-tuningは、事前訓練された拡散またはフローベース生成モデルを、より高い逆サンプルに向けて操ることを目的としている。
報酬スコアマッチング (RSM) と呼ばれる共通フレームワークで記述できることが示される。
論文 参考訳(メタデータ) (2026-04-19T12:47:52Z) - SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models [48.335262141752715]
拡散モデルのための後トレーニングパイプラインには、キュレートされたデータに対する教師付き微調整(SFT)と報酬モデルによる強化学習(RL)の2段階がある。
本稿では,このギャップを埋めるバイアス補正ポストトレーニング法であるSOAR(Self-Correction for Optimal Alignment and Refinement)を提案する。
オンライン政治であり、報酬なしであり、クレジット割り当ての問題なく、時間ごとの密集した監督を提供する。
論文 参考訳(メタデータ) (2026-04-14T11:45:15Z) - FAIL: Flow Matching Adversarial Imitation Learning for Image Generation [52.643484089126844]
フローマッチングモデルのポストトレーニング-高品質な目標値による出力分布の調整-数学的にはImitation Learningと等価である。
本研究では,明示的な報酬やペア比較を伴わずに,対人訓練による政策-専門的差異を最小限に抑えるフローマッチング・アドリアラーニング(FAIL)を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:36:33Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。