論文の概要: SPARK: Synergistic Policy And Reward Co-Evolving Framework
- arxiv url: http://arxiv.org/abs/2509.22624v1
- Date: Fri, 26 Sep 2025 17:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.625396
- Title: SPARK: Synergistic Policy And Reward Co-Evolving Framework
- Title(参考訳): SPARK:Synergistic Policy and Reward Co-Evolving Framework
- Authors: Ziyu Liu, Yuhang Zang, Shengyuan Ding, Yuhang Cao, Xiaoyi Dong, Haodong Duan, Dahua Lin, Jiaqi Wang,
- Abstract要約: 我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 84.22494672256894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) increasingly use Reinforcement Learning (RL) for post-pretraining, such as RL with Verifiable Rewards (RLVR) for objective tasks and RL from Human Feedback (RLHF) for subjective tasks. However, RLHF incurs high costs and potential reward-policy mismatch due to reliance on human preferences, while RLVR still wastes supervision by discarding rollouts and correctness signals after each update. To address these challenges, we introduce the Synergistic Policy And Reward Co-Evolving Framework (SPARK), an efficient, on-policy, and stable method that builds on RLVR. Instead of discarding rollouts and correctness data, SPARK recycles this valuable information to simultaneously train the model itself as a generative reward model. This auxiliary training uses a mix of objectives, such as pointwise reward score, pairwise comparison, and evaluation conditioned on further-reflection responses, to teach the model to evaluate and improve its own responses. Our process eliminates the need for a separate reward model and costly human preference data. SPARK creates a positive co-evolving feedback loop: improved reward accuracy yields better policy gradients, which in turn produce higher-quality rollouts that further refine the reward model. Our unified framework supports test-time scaling via self-reflection without external reward models and their associated costs. We show that SPARK achieves significant performance gains on multiple LLM and LVLM models and multiple reasoning, reward models, and general benchmarks. For example, SPARK-VL-7B achieves an average 9.7% gain on 7 reasoning benchmarks, 12.1% on 2 reward benchmarks, and 1.5% on 8 general benchmarks over the baselines, demonstrating robustness and broad generalization.
- Abstract(参考訳): 近年のLLM(Large Language Models)やLVLM(Large Vision-Language Models)では、目標タスクにRL(Verifiable Rewards)、主観タスクにRL(Human Feedback、RLHF)などの強化学習(Reinforcement Learning、RL)が採用されている。
しかし、RLHFは人間の嗜好に依存しているため、高いコストと潜在的報酬-政治ミスマッチを引き起こし、一方RLVRは更新後にロールアウトと正当性信号を捨てて監督を無駄にしている。
これらの課題に対処するために、RLVR上に構築された効率的でオン・ポリシー、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を導入する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
この補助訓練は、ポイントワイズ報酬スコア、ペアワイズ比較、さらなる反射反応に条件づけられた評価などの目的の混合を用いて、モデルに自身の反応を評価し改善させる。
当社のプロセスでは、報酬モデルとコストのかかる人選好データの必要性が排除されている。
SPARKは肯定的な共進化的なフィードバックループを生成し、報酬精度の向上はより良いポリシー勾配をもたらし、それによって報酬モデルをさらに洗練する高品質なロールアウトを生成する。
当社の統合フレームワークは、外部報酬モデルと関連するコストを使わずに、セルフリフレクションによるテスト時間のスケーリングをサポートしています。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
例えば、SPARK-VL-7Bは7つの推論ベンチマークで平均9.7%、報酬ベンチマークで12.1%、ベースライン上での8つの一般的なベンチマークで1.5%、堅牢性と広範な一般化を示す。
関連論文リスト
- Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [8.143110220871614]
我々は、構造化されたチェックリストスタイルのルーリックを解釈可能な報酬信号として利用するフレームワークであるRaRを紹介する。
ごみを構造化された報酬信号として扱うことにより、RaRはより小規模の審査モデルで人間の嗜好に適合できることを示す。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。