論文の概要: Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training
- arxiv url: http://arxiv.org/abs/2602.21189v2
- Date: Thu, 26 Feb 2026 18:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 14:31:24.010126
- Title: Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training
- Title(参考訳): Pass@k最適化がPass@1を分解する理由: LLMポストトレーニングにおけるプロンプト干渉
- Authors: Anas Barakat, Souradip Chakraborty, Khushbu Pahwa, Amrit Singh Bedi,
- Abstract要約: Pass@kは、大きな言語モデルタスクを検証するために広く使われているパフォーマンス指標である。
pass@kは改善され、pass@1はそのようなメソッドで分解される。
pass@$k$ ポリシー勾配はpass@1グラデーションと競合する可能性がある。
- 参考スコア(独自算出の注目度): 25.817291413560024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pass@k is a widely used performance metric for verifiable large language model tasks, including mathematical reasoning, code generation, and short-answer reasoning. It defines success if any of $k$ independently sampled solutions passes a verifier. This multi-sample inference metric has motivated inference-aware fine-tuning methods that directly optimize pass@$k$. However, prior work reports a recurring trade-off: pass@k improves while pass@1 degrades under such methods. This trade-off is practically important because pass@1 often remains a hard operational constraint due to latency and cost budgets, imperfect verifier coverage, and the need for a reliable single-shot fallback. We study the origin of this trade-off and provide a theoretical characterization of when pass@k policy optimization can reduce pass@1 through gradient conflict induced by prompt interference. We show that pass@$k$ policy gradients can conflict with pass@1 gradients because pass@$k$ optimization implicitly reweights prompts toward low-success prompts; when these prompts are what we term negatively interfering, their upweighting can rotate the pass@k update direction away from the pass@1 direction. We illustrate our theoretical findings with large language model experiments on verifiable mathematical reasoning tasks.
- Abstract(参考訳): Pass@kは、数学的推論、コード生成、短解推論を含む、大きな言語モデルタスクを検証するために広く使われているパフォーマンス指標である。
これは、$k$ が独立にサンプリングされた解のいずれかが検証器を通過する場合の成功を定義する。
このマルチサンプル推論メトリックは、pass@$k$を直接最適化する推論対応の微調整メソッドを動機付けている。
しかし、以前の作業では繰り返し発生するトレードオフが報告されている。pass@kは改善され、pass@1はそのようなメソッドで分解される。
pass@1は、レイテンシとコストの予算、不完全な検証対象のカバレッジ、信頼できるシングルショットのフォールバックの必要性のため、困難な運用上の制約を継続することが多いため、このトレードオフは事実上重要である。
本稿では,このトレードオフの起源を考察し,迅速な干渉によって引き起こされる勾配衝突によるpass@kポリシー最適化によりpass@1が減少する際の理論的特徴について述べる。
pass@$k$ポリシーグラデーションはpass@1グラデーションと競合する可能性がある、なぜならpass@$k$最適化は暗黙的に低リスクプロンプトにプロンプトするからである; これらのプロンプトが負の干渉である場合、そのアップウェイトはpass@1方向からpass@kアップデート方向を回転させることができる。
検証可能な数学的推論タスクに関する大規模言語モデル実験により,我々の理論的知見を概説する。
関連論文リスト
- InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning [32.274434679047395]
アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。
Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
論文 参考訳(メタデータ) (2026-01-20T18:15:38Z) - Knowing the Answer Isn't Enough: Fixing Reasoning Path Failures in LVLMs [85.37131922131657]
我々はLVLM(Large Vision-Language Models)の重大な欠陥を明らかにした。
これらのモデルが正しい答えを知っていても、誤った推論経路を通じて頻繁にそこに到達します。
PSO(Path-Select Optimization)は,既存のLVLMの推論性能と安定性を両立させる2段階のポストトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-06T03:02:55Z) - wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models [15.638885149395657]
dLLMs確率関数の抽出可能性には、各ポリシー最適化ステップにおける現在の、古い、参照ポリシーの確率を近似する必要がある。
我々は、目的を重み付けされた可能性として再構成する、新しいポリシー最適化アプローチである$mathttwd1$を導入する。
広く使われている推論ベンチマークの実験では、$mathttwd1$は教師付き微調整(SFT)や教師付きデータなしで、dLLMの既存のRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-07-07T21:27:25Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。