論文の概要: RewardDance: Reward Scaling in Visual Generation
- arxiv url: http://arxiv.org/abs/2509.08826v1
- Date: Wed, 10 Sep 2025 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.54475
- Title: RewardDance: Reward Scaling in Visual Generation
- Title(参考訳): RewardDance: ビジュアルジェネレーションにおけるリワードスケーリング
- Authors: Jie Wu, Yu Gao, Zilyu Ye, Ming Li, Liang Li, Hanzhong Guo, Jie Liu, Zeyue Xue, Xiaoxia Hou, Wei Liu, Yan Zeng, Weilin Huang,
- Abstract要約: RewardDanceは、新しい生成的報酬パラダイムを通じて障壁を克服するスケーラブルな報酬モデリングフレームワークである。
報酬スコアを"yes"トークンを予測するモデルの確率として再構成することで、RewardDanceは本質的に報酬目標をビジョンランゲージモデルと整合させる。
RewardDanceはテキスト・トゥ・イメージ、テキスト・トゥ・ビデオ、画像・トゥ・ビデオ生成において最先端の手法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 28.934614189005856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward Models (RMs) are critical for improving generation models via Reinforcement Learning (RL), yet the RM scaling paradigm in visual generation remains largely unexplored. It primarily due to fundamental limitations in existing approaches: CLIP-based RMs suffer from architectural and input modality constraints, while prevalent Bradley-Terry losses are fundamentally misaligned with the next-token prediction mechanism of Vision-Language Models (VLMs), hindering effective scaling. More critically, the RLHF optimization process is plagued by Reward Hacking issue, where models exploit flaws in the reward signal without improving true quality. To address these challenges, we introduce RewardDance, a scalable reward modeling framework that overcomes these barriers through a novel generative reward paradigm. By reformulating the reward score as the model's probability of predicting a "yes" token, indicating that the generated image outperforms a reference image according to specific criteria, RewardDance intrinsically aligns reward objectives with VLM architectures. This alignment unlocks scaling across two dimensions: (1) Model Scaling: Systematic scaling of RMs up to 26 billion parameters; (2) Context Scaling: Integration of task-specific instructions, reference examples, and chain-of-thought (CoT) reasoning. Extensive experiments demonstrate that RewardDance significantly surpasses state-of-the-art methods in text-to-image, text-to-video, and image-to-video generation. Crucially, we resolve the persistent challenge of "reward hacking": Our large-scale RMs exhibit and maintain high reward variance during RL fine-tuning, proving their resistance to hacking and ability to produce diverse, high-quality outputs. It greatly relieves the mode collapse problem that plagues smaller models.
- Abstract(参考訳): Reward Models (RM) は、Reinforcement Learning (RL) を通じて生成モデルを改善するために重要であるが、ビジュアルジェネレーションにおけるRMスケーリングパラダイムは、まだほとんど解明されていない。
CLIPベースのRMはアーキテクチャと入力のモダリティの制約に悩まされるのに対し、Bradley-Terryの損失はVision-Language Models(VLM)の次段階の予測メカニズムと根本的に違っているため、効果的なスケーリングを妨げている。
さらに重要なのは、RLHF最適化プロセスがReward Hackingの問題に悩まされていることだ。
これらの課題に対処するために、新しい生成的報酬パラダイムを通じてこれらの障壁を克服するスケーラブルな報酬モデリングフレームワークであるRewardDanceを紹介します。
報酬スコアを「yes」トークンを予測するモデルの確率として再構成し、生成された画像が特定の基準に従って参照画像を上回ることを示すことにより、RewardDanceは本質的に報酬目標をVLMアーキテクチャと整合させる。
このアライメントは、(1)モデルスケーリング:26億のパラメータまでのRMの体系的なスケーリング (2)コンテキストスケーリング:タスク固有の命令の統合、参照例、そしてチェーン・オブ・シント(CoT)推論である。
大規模な実験により、RewardDanceはテキスト・トゥ・イメージ、テキスト・トゥ・ビデオ、画像・トゥ・ビデオ生成において最先端の手法を大幅に上回っていることが示された。
我々の大規模RMは、RL微調整中に高い報酬分散を示し、高い報酬分散を維持し、ハッキングに対する抵抗と多様な高品質なアウトプットを生み出す能力を示す。
より小さなモデルに悩まされるモード崩壊の問題を大幅に緩和する。
関連論文リスト
- Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - Reward-Instruct: A Reward-Centric Approach to Fast Photo-Realistic Image Generation [25.29877217341663]
本稿では、複雑な人間の嗜好に合わせた高品質で高速な画像生成を実現するという課題に対処する。
Reward-Instructは、トレーニング済みのベース拡散モデルから報酬強化された数ステップジェネレータに変換するための、新しくて驚くほどシンプルな報酬中心のアプローチである。
テキスト・ツー・イメージ生成実験により,Reward-Instructは視覚的品質と定量的な測定結果が得られることを示した。
論文 参考訳(メタデータ) (2025-03-17T11:21:43Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。
実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文 参考訳(メタデータ) (2024-11-26T10:54:33Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。