論文の概要: Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play
- arxiv url: http://arxiv.org/abs/2411.00062v3
- Date: Wed, 09 Apr 2025 19:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:51.092280
- Title: Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play
- Title(参考訳): 静的プロンプトを超える拡張性強化:非対称なセルフプレイによるアライメントの進化
- Authors: Ziyu Ye, Rishabh Agarwal, Tianqi Liu, Rishabh Joshi, Sarmishta Velury, Quoc V. Le, Qijun Tan, Yuan Liu,
- Abstract要約: evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
- 参考スコア(独自算出の注目度): 52.3079697845254
- License:
- Abstract: Current reinforcement learning (RL) frameworks for large language models (LLM) post-training typically assume a fixed prompt distribution, which is sub-optimal and bottlenecks scalability. Prior works have explored prompt evolving, but are often limited to the supervised fine-tuning stage, and prompts are sampled and evolved uniformly without signals. This empirical work presents a paradigm shift: Evolving Alignment via Asymmetric Self-Play (eva), that casts post-training as an infinite game with regret-based signals for 2 players: (i) a creator, who strategically samples and creates new informative prompts and (ii) a solver, who learns to produce preferred responses. eva is the first method that allows language models to adaptively create training prompts in both offline and online RL post-training. The design is simple, easy-to-use yet remarkably effective: eva sets a new SOTA on challenging benchmarks, without any extra human prompts, e.g. it boosts the win-rate of gemma-2-9b-it on Arena-Hard by 51.6% -> 60.1% for DPO and 52.6% -> 62.4% for RLOO, surpassing claude-3-opus and catching up to gemini-1.5-pro, both of which are orders of magnitude larger. Extensive experiments show eva can create effective RL curricula and is robust across ablations. We believe adaptively evolving prompts are key to designing the next-generation RL post-training scheme.
- Abstract(参考訳): 大規模言語モデル(LLM)後のトレーニングのための現在の強化学習(RL)フレームワークは、通常、固定されたプロンプト分布を前提とします。
先行研究は急進的な進化を探求してきたが、しばしば監督された微調整段階に限られており、信号なしでプロンプトはサンプル化され、一様に進化する。
この経験的な作品は、パラダイムシフトを示す: 非対称なセルフプレイによるアライメントの進化(eva)は、2人のプレーヤーにとって後悔に基づく信号を持つ無限のゲームとしてポストトレーニングをキャストする。
一 新たな情報発信書を戦略的に採集し、作成する者
(二)好意的な反応を生み出すことを学ぶ解法者。
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
例えば、アリーナ・ハードのgemma-2-9b-itの勝利率を51.6% -> 60.1% -> DPO 52.6% -> 62.4% -> RLOO は claude-3-opus を超え、gemini-1.5-pro に追いつく。
大規模な実験により、エバは効果的なRLキュリキュラを生成でき、アブレーションにまたがって堅牢であることが示された。
我々は、適応的に進化するプロンプトが、次世代のRLポストトレーニングスキームを設計する鍵であると信じている。
関連論文リスト
- ARIES: Stimulating Self-Refinement of Large Language Models by Iterative Preference Optimization [34.77238246296517]
真にインテリジェントなLarge Language Model (LLM) は、外部インタラクションを通じて応答のエラーを修正する能力を持つべきである。
ARIES: Adaptive Refinement and Iterative Enhancement Structure。
ARIESは、反復的に好みのトレーニングと自己修正に基づくデータ収集を行う。
論文 参考訳(メタデータ) (2025-02-08T15:21:55Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - SimPO: Simple Preference Optimization with a Reference-Free Reward [43.136307294076545]
直接選好最適化 (DPO) は、広く使われているオフライン選好最適化アルゴリズムである。
我々はDPOに対するよりシンプルで効果的なアプローチであるSimPOを提案する。
SimPO は、応答長を大幅に増加させることなく、DPO を一貫して大幅に上回る。
論文 参考訳(メタデータ) (2024-05-23T16:01:46Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z) - Aligner: Efficient Alignment by Learning to Correct [10.056049435141645]
モデルに依存しないプラグアンドプレイモジュールであるAlignerを導入し、好ましくない回答と好ましくない回答の補正残差を学習する。
トレーニングはワンオフで、さまざまなオープンソースおよびAPIベースのモデルに適用できるため、迅速なイテレーションに適している。
実験では、11の異なる言語モデルに同じAlignerモデルをデプロイすることで、パフォーマンスの向上を実証した。
論文 参考訳(メタデータ) (2024-02-04T09:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。