論文の概要: RSPO: Risk-Seeking Policy Optimization for Pass@k and Max@k Metrics in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.01174v1
- Date: Sat, 02 Aug 2025 03:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.743457
- Title: RSPO: Risk-Seeking Policy Optimization for Pass@k and Max@k Metrics in Large Language Models
- Title(参考訳): RSPO:大規模言語モデルにおける Pass@k と Max@k メトリクスのリスク探索ポリシー最適化
- Authors: Kaichen Zhang, Shenghao Gao, Yuzhong Hong, Haipeng Sun, Junwei Bao, Hongfei Jiang, Yang Song, Hong Dingqian, Hui Xiong,
- Abstract要約: 本稿では,Pass@kとMax@kを直接対象とする新しい手法であるRSPOを提案する。
RSPOは「ヒッチハイク」問題に対処する:低逆応答は、高逆応答と共起した場合、必然的に強化される。
複数の応答に対するネスト勾配の複雑さにもかかわらず、RSPOは両方のメトリクスに対して効率的で偏りのない勾配推定器を生成する。
- 参考スコア(独自算出の注目度): 19.825375129156225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large language model post-training optimizes a risk-neutral objective that maximizes expected reward, yet evaluation relies heavily on risk-seeking metrics like Pass@k (at least one success in k trials) and Max@k (maximum reward across k responses). This mismatch in risk preferences can inevitably lead to suboptimal performance. To bridge this gap, we propose Risk-Seeking Policy Optimization (RSPO), a novel method that directly targets Pass@k and Max@k during training. A key challenge in optimizing these metrics is the "hitchhiking" problem: low-reward responses are inadvertently reinforced if they co-occur with a high-reward response within a sample of k generations, resulting in inefficient optimization. RSPO addresses this problem by leveraging the closed-form probability that a given response is the maximum among k samplings. Despite the complexity of nested gradients over multiple responses, RSPO produces efficient, unbiased gradient estimators for both metrics. We validate our approach with both rigorous theoretical analysis and comprehensive experimental results.
- Abstract(参考訳): 現在の大規模言語モデルのポストトレーニングは、期待される報酬を最大化するリスク中立の目標を最適化するが、評価は、Pass@k(少なくともkトライアルで1つの成功)やMax@k(kレスキューにおける最大報酬)のようなリスク検索メトリクスに大きく依存する。
このリスク選好のミスマッチは、必然的に準最適パフォーマンスにつながる。
このギャップを埋めるために、トレーニング中にPass@kとMax@kを直接ターゲットとする新しい手法であるRSPOを提案する。
これらのメトリクスを最適化する上で重要な課題は、"ヒッチハイク"問題である: 低い逆応答が k 世代のサンプルで高逆応答と共起して非効率な最適化をもたらす場合、必然的に強化される。
RSPOは、与えられた応答がkサンプリングの最大値であるような閉形式確率を活用することでこの問題に対処する。
複数の応答に対するネスト勾配の複雑さにもかかわらず、RSPOは両方のメトリクスに対して効率的で偏りのない勾配推定器を生成する。
我々は厳密な理論的分析と総合的な実験結果の両方を用いてアプローチを検証する。
関連論文リスト
- Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。
エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文 参考訳(メタデータ) (2025-02-27T09:56:51Z) - Risk-averse Total-reward MDPs with ERM and EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis [16.32678094159896]
強化学習(Reinforcement Learning, RL)は、様々なアプリケーションで例外的な性能を示している。
リスクに敏感な政策勾配法は、期待されるリターンとリスク対策の両方を取り入れ、より堅牢な政策を得る能力について検討されてきた。
本稿では,リスクに敏感なポリシー勾配法に対して,指数関数的効用関数を持つREINFORCEアルゴリズムに着目し,厳密な反復複雑性解析を行う。
論文 参考訳(メタデータ) (2024-03-13T20:50:49Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Robust regression with covariate filtering: Heavy tails and adversarial
contamination [6.939768185086755]
より強い汚染モデルにおいて,ハマー回帰,最小トリミング正方形,最小絶対偏差推定器を同時に計算および統計的に効率的に推定する方法を示す。
この設定では、ハマー回帰推定器がほぼ最適誤差率を達成するのに対し、最小のトリミング正方形と最小の絶対偏差推定器は、後処理ステップを適用した後、ほぼ最適誤差を達成することができる。
論文 参考訳(メタデータ) (2020-09-27T22:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。