論文の概要: Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries
- arxiv url: http://arxiv.org/abs/2510.08325v2
- Date: Tue, 21 Oct 2025 12:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.02689
- Title: Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries
- Title(参考訳): Pass@kを超えて - 境界を推論するためのBreadth-Depth Metrics
- Authors: Marius Dragoi, Ioana Pintilie, Florin Gogianu, Florin Brad,
- Abstract要約: モデルが解ける問題の割合を測るCover@tauを提案する。
Pass@kとは異なり、Cover@tauは明確な信頼性閾値の下で推論をキャプチャする。
Cover@tau-based metrics を用いていくつかのRLVRモデルを評価し,Pass@1 と比較してアルゴリズムの相対ランクがどう変化するかを示した。
- 参考スコア(独自算出の注目度): 2.9807229517491827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful paradigm to improve Large Language Models on reasoning tasks such as coding, math or logic. To assess the reasoning boundary (the fraction of problems a model can solve) researchers often report Pass@k at large sampling budgets. Recent results reveal a crossover phenomenon: while RLVR models outperform the base model at small k values, the base model usually outperforms them when sampling a very large number of completions. This has been interpreted as evidence that base models have a larger reasoning boundary. We argue that on tasks with discrete answer spaces, such as math with numeric outputs, Pass@k at large k reflects the increasingly higher chance of success in the limit of the number of trials rather than genuine reasoning, and can therefore be misleading. We propose Cover@tau, which measures the fraction of problems that a model can solve for which at least a tau proportion of completions are correct. Unlike Pass@k, Cover@tau captures reasoning under an explicit reliability threshold: models that rely on random guessing degrade rapidly as tau increases. We evaluate several RLVR models using Cover@tau-based metrics and illustrate how the relative rankings of popular algorithms change compared to Pass@1, offering a different perspective on reasoning boundaries.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、コーディング、数学、論理といった推論タスクにおいて、大規模言語モデルを改善するための強力なパラダイムとして登場した。
推論境界(モデルが解決できる問題の割合)を評価するために、研究者はしばしば大規模なサンプリング予算でPass@kを報告します。
RLVRモデルは、小さなk値でベースモデルを上回るが、ベースモデルは、非常に多くの完了をサンプリングするときに、通常、それらを上回る。
これはベースモデルがより大きな推論境界を持つ証拠として解釈されている。
数値出力を持つ数学のような離散的な解空間を持つタスクにおいて、大きな k における Pass@k は真の推論よりも試行回数の制限で成功する確率が増大していることを反映しており、従って誤解を招く可能性がある。
モデルが解ける問題の割合を測るCover@tauを提案する。
Pass@kとは異なり、Cover@tauは明確な信頼性のしきい値で推論をキャプチャする。
Cover@tauベースのメトリクスを用いて複数のRLVRモデルを評価し、人気のあるアルゴリズムの相対ランクがPass@1と比較してどのように変化するかを示し、推論境界について異なる視点を提供する。
関連論文リスト
- Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Batch Prompting Suppresses Overthinking Reasoning Under Constraint: How Batch Prompting Suppresses Overthinking in Reasoning Models [5.408799241182959]
我々は,Large Reasoning Models (LRMs) の多段階推論におけるモデル挙動を規則化することを示した。
我々は、13の多様なベンチマークを総合的に調査し、トークンの使用理由を著しく減らしながら精度を向上する観察を行った。
驚くべきことに、バッチ推論における創発的な集団効果も観察する:モデルは、しばしば以前の例からパターンを一般化して、難しいものを解決する。
論文 参考訳(メタデータ) (2025-11-06T06:47:39Z) - Think Twice: Branch-and-Rethink Reasoning Reward Model [32.70732791642558]
本稿では,2ターンのRMであるブランチ・アンド・リコンプリート(BR-RM)について紹介する。
我々は、厳密なフォーマットチェックによる単純なバイナリ結果報酬を用いて、構造化された2ターントレース上でGRPOスタイルの強化学習を訓練する。
All-at-oncescoringinto focus, second-lookreasoning を変換することにより、BR-RMreducesjudgmentdiffusionand は微妙で連続的な誤りに対する感受性を高める。
論文 参考訳(メタデータ) (2025-10-27T17:58:07Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。
我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。
結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文 参考訳(メタデータ) (2025-07-14T01:14:50Z) - Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning [75.31797502976802]
幅広いタスクからなる20以上のオープンウェイト推論チューニングモデルを評価した。
数学で成功するほとんどのモデルは、利得を他の領域に移すことができない。
以上の結果から,標準のポストトレーニングレシピを再考する必要性が示唆された。
論文 参考訳(メタデータ) (2025-07-01T05:23:05Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - Value-Guided Search for Efficient Chain-of-Thought Reasoning [49.971608979012366]
本稿では,長文推論トレースを用いた値モデル学習の簡易かつ効率的な手法を提案する。
250万の推論トレースのデータセットを収集して、1.5Bトークンレベルのバリューモデルをトレーニングします。
最終多数決を重み付けしたブロックワイド値誘導検索(VGS)は,標準手法よりも優れたテスト時間スケーリングを実現する。
論文 参考訳(メタデータ) (2025-05-23T01:05:07Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。