論文の概要: Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries
- arxiv url: http://arxiv.org/abs/2510.08325v1
- Date: Thu, 09 Oct 2025 15:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.157774
- Title: Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries
- Title(参考訳): Pass@kを超えて - 境界を推論するためのBreadth-Depth Metrics
- Authors: Marius Dragoi, Ioana Pintilie, Florin Gogianu, Florin Brad,
- Abstract要約: モデルが解ける問題の割合を測るCover@tauを提案する。
Pass@kとは異なり、Cover@tauは明確な信頼性閾値の下で推論をキャプチャする。
Cover@tau-based metrics を用いていくつかのRLVRモデルを評価し,Pass@1 と比較してアルゴリズムの相対ランクがどう変化するかを示した。
- 参考スコア(独自算出の注目度): 2.9807229517491827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful paradigm to improve Large Language Models on reasoning tasks such as coding, math or logic. To assess the reasoning boundary (the fraction of problems a model can solve) researchers often report Pass@k at large sampling budgets. Recent results reveal a crossover phenomenon: while RLVR models outperform the base model at small k values, the base model usually outperforms them when sampling a very large number of completions. This has been interpreted as evidence that base models have a larger reasoning boundary. We argue that on tasks with discrete answer spaces, such as math with numeric outputs, Pass@k at large k reflects the increasingly higher chance of success in the limit of the number of trials rather than genuine reasoning, and can therefore be misleading. We propose Cover@tau, which measures the fraction of problems that a model can solve for which at least a tau proportion of completions are correct. Unlike Pass@k, Cover@tau captures reasoning under an explicit reliability threshold: models that rely on random guessing degrade rapidly as tau increases. We evaluate several RLVR models using Cover@tau-based metrics and illustrate how the relative rankings of popular algorithms change compared to Pass@1, offering a different perspective on reasoning boundaries.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、コーディング、数学、論理といった推論タスクにおいて、大規模言語モデルを改善するための強力なパラダイムとして登場した。
推論境界(モデルが解決できる問題の割合)を評価するために、研究者はしばしば大規模なサンプリング予算でPass@kを報告します。
RLVRモデルは、小さなk値でベースモデルを上回るが、ベースモデルは、非常に多くの完了をサンプリングするときに、通常、それらを上回る。
これはベースモデルがより大きな推論境界を持つ証拠として解釈されている。
数値出力を持つ数学のような離散的な解空間を持つタスクにおいて、大きな k における Pass@k は真の推論よりも試行回数の制限で成功する確率が増大していることを反映しており、従って誤解を招く可能性がある。
モデルが解ける問題の割合を測るCover@tauを提案する。
Pass@kとは異なり、Cover@tauは明確な信頼性のしきい値で推論をキャプチャする。
Cover@tauベースのメトリクスを用いて複数のRLVRモデルを評価し、人気のあるアルゴリズムの相対ランクがPass@1と比較してどのように変化するかを示し、推論境界について異なる視点を提供する。
関連論文リスト
- The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。
我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。
結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文 参考訳(メタデータ) (2025-07-14T01:14:50Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - Value-Guided Search for Efficient Chain-of-Thought Reasoning [49.971608979012366]
本稿では,長文推論トレースを用いた値モデル学習の簡易かつ効率的な手法を提案する。
250万の推論トレースのデータセットを収集して、1.5Bトークンレベルのバリューモデルをトレーニングします。
最終多数決を重み付けしたブロックワイド値誘導検索(VGS)は,標準手法よりも優れたテスト時間スケーリングを実現する。
論文 参考訳(メタデータ) (2025-05-23T01:05:07Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。