論文の概要: Explicit Critic Guidance for Aligning Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.27736v1
- Date: Tue, 26 May 2026 22:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.579557
- Title: Explicit Critic Guidance for Aligning Diffusion Models
- Title(参考訳): 拡散モデル調整のための明示的批判的ガイダンス
- Authors: Zhengyang Liang, Qihang Zhang, Ceyuan Yang,
- Abstract要約: 拡散後学習のための状態整列型アクター批判フレームワークを提案する。
提案手法は, グループリレーショナルRLとアクタークリティックベースラインを, シングルリワード, マルチリワードベンチマークで連続的に上回っている。
- 参考スコア(独自算出の注目度): 27.6704888666835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online reinforcement learning is becoming increasingly important for aligning diffusion models with non-differentiable objectives. However, existing methods still face limitations in assigning fine-grained credit along denoising trajectories and in realizing stable value-based optimization. We propose a state-aligned latent actor-critic framework for diffusion post-training, in which the diffusion model serves as its own timestep-conditioned value function and predicts values directly on noisy latent states. This enables trajectory-level PPO training, supports stable actor-critic optimization with simple conditioning and value pretraining strategies, and naturally allows the learned critic to be reused for inference-time steering. We further extend the framework to multi-reward optimization, where joint training with complementary rewards helps alleviate reward hacking. Across both UNet- and DiT-based backbones, our method consistently outperforms prior group-relative RL and actor-critic baselines on single-reward and multi-reward benchmarks, while test-time steering provides additional gains in generation quality.
- Abstract(参考訳): オンライン強化学習は、拡散モデルと微分不可能な目的を整合させる上でますます重要になっている。
しかし、既存の手法は、軌道の偏りに沿ってきめ細かなクレジットを割り当てたり、安定した値ベースの最適化を実現する際に制限に直面している。
本稿では,拡散モデルが独自の時間ステップ条件付値関数として機能し,ノイズの多い潜伏状態の値を直接予測する,拡散後訓練のための状態整列型潜伏型アクター批判フレームワークを提案する。
これにより、軌道レベルのPPOトレーニングが可能となり、シンプルな条件付けと価値事前学習戦略で安定したアクター-批評家最適化をサポートし、自然に学習した批評家を推論時ステアリングのために再利用することができる。
我々はさらにフレームワークをマルチリワード最適化に拡張し、補完的な報酬を伴う共同トレーニングによって報酬のハッキングを緩和する。
UNetベースとDiTベースの両方のバックボーンにおいて,テストタイムステアリングにより生成品質が向上するのに対し,本手法はグループ相対的RLとアクタ批判的ベースラインをシングルリワードおよびマルチリワードベンチマークで一貫して上回っている。
関連論文リスト
- Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping [66.25536973294726]
テキスト・トゥ・イメージ(T2I)モデルのポストトレーニング手法はハッキングに報いる傾向がある。
SLAS(Super-Linear Advantage Shaping)は、地方政策の分野を再考する。
SLASは、DanceGRPOベースラインを複数のバックボーンとベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-11T17:59:25Z) - A Systematic Post-Train Framework for Video Generation [76.26555417456773]
大規模ビデオ拡散モデルでは、高解像度でセマンティックにリッチなコンテンツを生成できることが顕著に示されている。
迅速な感度、時間的不整合、禁止的推論コストといった重要な問題のために、事前訓練されたパフォーマンスと実際のデプロイメント要件の間には、大きなギャップが残っている。
本研究では,事前学習されたモデルとユーザの意図を4つの相乗的段階を通して体系的に整合させる総合的なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T09:34:51Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - Critic-Guided Reinforcement Unlearning in Text-to-Image Diffusion [0.0]
テキストから画像への拡散モデルにおける機械学習は、全体的な有用性を保ちながらターゲットとなる概念を取り除くことを目的としている。
本稿では,難読化を逐次決定過程として扱う拡散アンラーニングのための一般的なRLフレームワークを提案する。
我々のアルゴリズムは実装が簡単で、非政治的な再利用をサポートし、標準のテキスト・ツー・イメージのバックボーンにプラグインする。
論文 参考訳(メタデータ) (2026-01-06T17:52:02Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。