論文の概要: Beyond Verifiable Rewards: Scaling Reinforcement Learning for Language Models to Unverifiable Data
- arxiv url: http://arxiv.org/abs/2503.19618v2
- Date: Wed, 28 May 2025 14:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.074193
- Title: Beyond Verifiable Rewards: Scaling Reinforcement Learning for Language Models to Unverifiable Data
- Title(参考訳): 検証可能なリワードを超えて: 言語モデルから検証不可能なデータへの強化学習のスケーリング
- Authors: Yunhao Tang, Sid Wang, Lovish Madaan, Rémi Munos,
- Abstract要約: 本稿では、新しいアルゴリズムJEPOを用いて、RLを検証不可能なデータにスケールすることを提案する。
JEPO はJensen の証明を下限に当てはめ、これは生成過程においてチェーン・オブ・シントを潜在変数と見なす証拠の実用的単純化である。
半検証可能なデータ(数値)では、JEPOは、データソースのサブセットしか活用できない検証可能な報酬を持つRLと比較して、ソフトマッチに基づく評価を改善する。
- 参考スコア(独自算出の注目度): 26.222015964114444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to scale RL to unverifiable data with a novel algorithm JEPO (Jensen's Evidence lower bound Policy Optimization). While most prior efforts on scaling RL for LLMs focus on verifiable data where ground truth answers are typically short-form and can be matched easily; we investigate the case where such assumptions are less valid (e.g., when answers are long-form such as mathematical proofs). To scale RL training to unverifiable data with contemporary training constraints, we propose JEPO. JEPO applies Jensen's evidence lower bound, a pragmatic simplification of the evidence lower bound which views chain-of-thought as a latent variable in the generative process. We show that on verifiable data (math), JEPO is as effective as RL with verifiable rewards; on semi-verifiable data (numina), JEPO improves on soft-match based evaluations compared to RL with verifiable rewards which can only leverage a subset of the data source; finally, on unverifiable data (numina-proof), JEPO outperforms SFT and a few ablation baselines on likelihood evaluations.
- Abstract(参考訳): 本稿では,新しいアルゴリズムJEPO (Jensen's Evidence lower bound Policy Optimization) を用いて,RLを検証不能なデータに拡張することを提案する。
LLM に対する RL のスケーリングは,基礎的真理解が典型的に短く,容易に一致できる検証可能なデータに重点を置いているが,そのような仮定が適切でない場合(例えば,数学的証明のような長文解が長文である場合)について検討する。
RLトレーニングを現代のトレーニング制約で検証不能なデータに拡張するために,JEPOを提案する。
JEPO はJensen の証明を下限に当てはめ、これは生成過程においてチェーン・オブ・シントを潜在変数と見なす証拠の実用的単純化である。
半検証可能なデータ(数値)では、JEPOは、データソースのサブセットしか利用できない検証可能な報酬を持つRLと比較して、ソフトマッチベースの評価を改善する。
関連論文リスト
- Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Unified Convergence Theory of Stochastic and Variance-Reduced Cubic Newton Methods [37.1630298053787]
我々はヘルパーフレームワークと呼ばれる新しいフレームワークを提案する。
グローバルな複雑性保証を備えた分散アルゴリズムと二階アルゴリズムの統一的なビューを提供する。
論文 参考訳(メタデータ) (2023-02-23T12:18:28Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - The Role of Entropy in Guiding a Connection Prover [1.279913017771418]
定理証明における推論ステップを選択するための優れたアルゴリズムの学習法について検討する。
まず、現在最先端の学習アルゴリズムであるグラフニューラルネットワーク(GNN)をplCoP定理証明器に組み込むことから始める。
論文 参考訳(メタデータ) (2021-05-31T04:57:44Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Deep Magnification-Flexible Upsampling over 3D Point Clouds [103.09504572409449]
本稿では,高密度点雲を生成するためのエンドツーエンド学習ベースのフレームワークを提案する。
まずこの問題を明示的に定式化し、重みと高次近似誤差を判定する。
そこで我々は,高次改良とともに,統一重みとソート重みを適応的に学習する軽量ニューラルネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-25T14:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。