論文の概要: Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems
- arxiv url: http://arxiv.org/abs/2505.15201v1
- Date: Wed, 21 May 2025 07:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.107923
- Title: Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems
- Title(参考訳): Pass@Kポリシー最適化: よりハードな強化学習問題の解決
- Authors: Christian Walder, Deep Karkhanis,
- Abstract要約: Reinforcement Learning (RL)アルゴリズムは、各問題に対して複数のn>1ソリューションをサンプリングし、それらを独立して報酬する。
これにより, 試料集合の多様性と集合的有用性を犠牲にして, 分離試料の強度を優先する。
本稿では,PKPO(Pass-at-k Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 6.873119751136341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) algorithms sample multiple n>1 solution attempts for each problem and reward them independently. This optimizes for pass@1 performance and prioritizes the strength of isolated samples at the expense of the diversity and collective utility of sets of samples. This under-utilizes the sampling capacity, limiting exploration and eventual improvement on harder examples. As a fix, we propose Pass-at-k Policy Optimization (PKPO), a transformation on the final rewards which leads to direct optimization of pass@k performance, thus optimizing for sets of samples that maximize reward when considered jointly. Our contribution is to derive novel low variance unbiased estimators for pass@k and its gradient, in both the binary and continuous reward settings. We show optimization with our estimators reduces to standard RL with rewards that have been jointly transformed by a stable and efficient transformation function. While previous efforts are restricted to k=n, ours is the first to enable robust optimization of pass@k for any arbitrary k <= n. Moreover, instead of trading off pass@1 performance for pass@k gains, our method allows annealing k during training, optimizing both metrics and often achieving strong pass@1 numbers alongside significant pass@k gains. We validate our reward transformations on toy experiments, which reveal the variance reducing properties of our formulations. We also include real-world examples using the open-source LLM, GEMMA-2. We find that our transformation effectively optimizes for the target k. Furthermore, higher k values enable solving more and harder problems, while annealing k boosts both the pass@1 and pass@k . Crucially, for challenging task sets where conventional pass@1 optimization stalls, our pass@k approach unblocks learning, likely due to better exploration by prioritizing joint utility over the utility of individual samples.
- Abstract(参考訳): Reinforcement Learning (RL)アルゴリズムは、各問題に対して複数のn>1ソリューションをサンプリングし、それらを独立して報酬する。
これはpass@1のパフォーマンスを最適化し、サンプルセットの多様性と集合的有用性を犠牲にして、分離されたサンプルの強度を優先する。
これによりサンプリング能力が不足し、探索が制限され、より難しい例が最終的に改善される。
そこで我々は,PKPO(Pass-at-k Policy Optimization)を提案する。PKPOは,PKPO(Pass@k Performance)の直接最適化につながる最終報酬の変換であり,共同で考える場合の報酬を最大化するサンプルの集合を最適化する。
我々の貢献は、二進的および連続的な報酬設定の両方において、pass@kとその勾配に対する新しい低分散未バイアス推定器を導出することである。
安定かつ効率的な変換関数によって共同変換された報酬を持つ標準RLに還元された推定器による最適化を示す。
これまでの取り組みは k=n に制限されているが、任意の k <= n に対して pass@k のロバストな最適化を実現するのはこれが初めてである。
さらに、pass@kゲインに対してpass@1パフォーマンスをトレードオフする代わりに、トレーニング中にkをアニールし、両方のメトリクスを最適化し、重要なpass@kゲインとともに強いpass@1番号を達成することができる。
玩具実験における報酬変換の有効性を検証し, 定式化の分散低減特性を明らかにする。
また,オープンソースの LLM である GEMMA-2 を用いた実例も紹介する。
我々の変換はターゲット k に対して効果的に最適化される。
さらに、より高いk値はより難しい問題の解決を可能にし、一方、anealing kはpass@1とpass@kの両方を増強する。
重要なことは、従来のpass@1最適化が停止している課題セットに対して、pass@kアプローチは学習をブロックしない。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Enhanced Federated Optimization: Adaptive Unbiased Client Sampling with Reduced Variance [37.646655530394604]
Federated Learning(FL)は、ローカルデータを収集することなく、複数のデバイスでグローバルモデルをトレーニングする分散学習パラダイムである。
独立サンプリング手法を用いて,最初の適応型クライアントサンプリング器K-Vibを提案する。
K-Vibは、一連の通信予算の中で、後悔すべき$tildemathcalObig(Nfrac13Tfrac23/Kfrac43big)$の線形スピードアップを達成する。
論文 参考訳(メタデータ) (2023-10-04T10:08:01Z) - Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization [42.92248233465095]
本稿では,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,オンラインインタラクションを伴わない対称領域の探索を促進するために,高解像度サンプルを活用する。
実世界のタスクに適用した多種多様なDRL法に対して,本手法を一貫したサンプル効率向上効果を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-02T05:34:01Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback [31.826205004616227]
クライアントサンプリングは、最適化アルゴリズムの収束率に影響を与えるため、連邦学習(FL)システムにおいて重要な役割を果たす。
サンプリング分散の最小化を目的としたオンラインミラー降下(OSMD)アルゴリズムを提案する。
本手法は, 広く使用されている一様サンプリングよりも, フェデレーション最適化アルゴリズムの収束速度を向上できることを示す。
論文 参考訳(メタデータ) (2021-12-28T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。