論文の概要: DRM: Diffusion-based Reward Model With Step-wise Guidance
- arxiv url: http://arxiv.org/abs/2605.25661v1
- Date: Mon, 25 May 2026 10:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.6438
- Title: DRM: Diffusion-based Reward Model With Step-wise Guidance
- Title(参考訳): DRM:ステップワイドガイダンス付き拡散型リワードモデル
- Authors: Jaxon Zhang, Binxin Yang, Hubery Yin, Chen Li, Jing Lyu,
- Abstract要約: 拡散モデル(Diffusion-based Reward Model, DRM)は、事前学習した拡散モデルを強力な評価バックボーンとして利用する新しいパラダイムである。
本稿では,不正確なクレジット代入問題を解決するために,高密度なステップごとの報酬を提供する強化学習アルゴリズムGRPOを提案する。
- 参考スコア(独自算出の注目度): 6.839893415984142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current mainstream methods of aligning diffusion models with human preferences typically employ VLM-based reward models. However, these reward models, pre-trained for semantic alignment, struggle to capture the essential perceptual qualities-such as aesthetics, composition, and visual harmony. In this work, we argue that a model capable of high-fidelity generation must possess a profound understanding of these visual attributes. Based on this insight, we introduce the Diffusion-based Reward Model (DRM), a novel paradigm that use the pre-trained diffusion model as a powerful evaluative backbone. A key advantage of the DRM is its unique ability to assess not only the final image but also the noisy intermediate latents at any stage of the generative process. We leverage this step-wise evaluative capacity in two ways. First, we propose Step-wise GRPO, a reinforcement learning algorithm that provides dense, per-step rewards to resolve the imprecise credit assignment problem in GRPO algorithm, leading to more stable and effective alignment. Second, we introduce Step-wise Sampling, a novel inference strategy that employs the DRM as a dynamic guide to evaluate multiple generation paths at each step, steering the process towards higher-quality outcomes. Extensive experiments confirm that our approach significantly enhances the final quality of generated images. Code: https://github.com/jjaxonx/DRM.
- Abstract(参考訳): 拡散モデルと人間の好みを一致させる現在の主流の方法は、VLMベースの報酬モデルを用いるのが一般的である。
しかし、これらの報酬モデルは、セマンティックアライメントのために事前訓練され、美学、構成、視覚調和など、本質的な知覚の質を捉えるのに苦労している。
本研究では、高忠実度生成が可能なモデルが、これらの視覚的特性を深く理解している必要があると論じる。
この知見に基づいて,事前学習した拡散モデルを強力な評価バックボーンとして利用する新しいパラダイムであるDiffusion-based Reward Model(DRM)を紹介する。
DRMの重要な利点は、最終画像だけでなく、生成過程のどの段階でもノイズの多い中間潜水剤を評価するユニークな能力である。
私たちはこの段階的な評価能力を2つの方法で活用します。
まず、GRPOアルゴリズムにおける不正確なクレジット代入問題を解決するために、高密度かつステップごとの報酬を提供する強化学習アルゴリズムであるステップワイズGRPOを提案し、より安定かつ効果的なアライメントを実現する。
次に、DRMを動的ガイドとして活用し、各ステップで複数の生成経路を評価し、より高品質な結果に向けてプロセスを舵取りする、新しい推論戦略であるStep-wise Smplingを紹介する。
大規模な実験により,本手法が生成画像の最終的な品質を著しく向上させることを確認した。
コード:https://github.com/jjaxonx/DRM
関連論文リスト
- Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models [6.350443894942629]
MWAM(Multimodal Weight Allocation Module)は、トレーニング中の各ブランチのコントリビューションを動的に再バランスするプラグイン・アンド・プレイコンポーネントである。
MWAMは幅広いタスクとモダリティの組み合わせで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-02-26T05:51:41Z) - Learning Ordinal Probabilistic Reward from Preferences [25.069054134899744]
確率的リワードモデル(PRM: Probabilistic Reward Model)を提案する。
提案手法では,報酬を決定論的スカラーとしてモデル化する代わりに,ランダム変数として扱い,各応答の品質の完全な確率分布を学習する。
OPRM上に構築したRerea Flooding Tuning(RgFT)と呼ばれるデータ効率のトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-13T06:43:02Z) - Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models [23.128973540926552]
内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:54:36Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models [40.82263997290613]
離散拡散においてスケーラブルなマルチモーダル強化学習を実現するための,最初の実行可能なアプローチであるMaskGRPOを紹介する。
MaskGRPOはより安定的で効率的なアップデートをもたらし、推論性能が向上し、世代品質が向上する。
論文 参考訳(メタデータ) (2025-10-03T10:36:24Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。