論文の概要: Pass@k Metric for RLVR: A Diagnostic Tool of Exploration, But Not an Objective
- arxiv url: http://arxiv.org/abs/2511.16231v1
- Date: Thu, 20 Nov 2025 10:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.585311
- Title: Pass@k Metric for RLVR: A Diagnostic Tool of Exploration, But Not an Objective
- Title(参考訳): Pass@k Metric for RLVR: 探索の診断ツールだが、客観的ではない
- Authors: Yang Yu,
- Abstract要約: 我々は、k個の独立サンプルにおいて少なくとも1つの正しい解を得る確率を測定するpass@kメトリックを分析する。
我々の分析によると、pass@kの目的は、探索が最も重要となる体制において、消滅する学習信号を提供する。
pass@kは有用な診断ツールであるが、最適化の直接的な目的には適さないかもしれないと結論付けている。
- 参考スコア(独自算出の注目度): 3.79187263097166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ability of Large Language Models (LLMs) to perform complex, multi-step reasoning is a central focus of modern AI research. To evaluate and enhance this capability, the pass@k metric, which measures the probability of obtaining at least one correct solution in k independent samples, has received significant attention. Its intuitive appeal has led to its adoption not only as an evaluation standard but also as a direct optimization objective in reinforcement learning. In this paper, we analyze the pass@k objective, derive its gradient, and demonstrate that it is fundamentally a per-example positive reweighting of the simpler pass@1 objective. Our analysis reveals that the pass@k objective provides a vanishing learning signal in regimes where exploration is most critical. We further analyze the dynamics of "exploration collapse", showing that as the policy concentrates probability mass, the gap between pass@k and pass@1 diminishes. We conclude that while pass@k is a useful diagnostic tool, it may be an unsuitable direct objective for optimization. Instead, mechanisms explicitly encouraging efficient exploration could offer a more effective path forward for reinforcement learning in reasoning tasks.
- Abstract(参考訳): 複雑な多段階推論を行うためのLLM(Large Language Models)の能力は、現代のAI研究の中心的な焦点である。
この能力を評価・強化するために、k個の独立したサンプルにおいて少なくとも1つの正しい解を得る確率を測定するpass@kメトリックが注目されている。
その直感的な魅力は、評価基準としてだけでなく、強化学習における直接的な最適化目標としての採用につながった。
本稿では、pass@kの目的を解析し、その勾配を導出し、基本的にはより単純なpass@1の目的のサンプルごとの正の重み付けであることを示す。
我々の分析によると、pass@kの目的は、探索が最も重要となる体制において、消滅する学習信号を提供する。
さらに「探索崩壊」のダイナミクスを分析し、ポリシーが確率質量に集中すると、pass@kとpass@1のギャップは減少することを示す。
pass@kは有用な診断ツールであるが、最適化の直接的な目的には適さないかもしれないと結論付けている。
代わりに、効率的な探索を明示的に奨励するメカニズムは、推論タスクにおける強化学習のためのより効果的な経路を提供する。
関連論文リスト
- Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。