論文の概要: PACE: Defying the Scaling Hypothesis of Exploration in Iterative Alignment for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2602.05370v1
- Date: Thu, 05 Feb 2026 06:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.794338
- Title: PACE: Defying the Scaling Hypothesis of Exploration in Iterative Alignment for Mathematical Reasoning
- Title(参考訳): PACE:数理推論のための反復アライメントにおける探索のスケーリング仮説の定義
- Authors: Jun Rao, Zixiong Yu, Xuebo Liu, Guhan Chen, Jing Li, Jiansheng Wei, Xiaojun Meng, Min Zhang,
- Abstract要約: N$のスケーリングは検証器のノイズを増幅し、有害分布シフトを誘導することを示す。
textbfPACE (Proximal Alignment via Corrective Exploration) を導入し、ブルートフォースマイニングを世代ベースの補正戦略に置き換える。
実証的な評価では、PACEはDPO-R1$(N=16)$より優れており、計算の約1/5$しか使用していない。
- 参考スコア(独自算出の注目度): 30.94339415375379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Iterative Direct Preference Optimization has emerged as the state-of-the-art paradigm for aligning Large Language Models on reasoning tasks. Standard implementations (DPO-R1) rely on Best-of-N sampling (e.g., $N \ge 8$) to mine golden trajectories from the distribution tail. In this paper, we challenge this scaling hypothesis and reveal a counter-intuitive phenomenon: in mathematical reasoning, aggressive exploration yields diminishing returns and even catastrophic policy collapse. We theoretically demonstrate that scaling $N$ amplifies verifier noise and induces detrimental distribution shifts. To resolve this, we introduce \textbf{PACE} (Proximal Alignment via Corrective Exploration), which replaces brute-force mining with a generation-based corrective strategy. Operating with a minimal budget ($2<N<3$), PACE synthesizes high-fidelity preference pairs from failed explorations. Empirical evaluations show that PACE outperforms DPO-R1 $(N=16)$ while using only about $1/5$ of the compute, demonstrating superior robustness against reward hacking and label noise.
- Abstract(参考訳): 反復的直接選好最適化は、推論タスクで大規模言語モデルを整合させる最先端のパラダイムとして登場した。
標準実装(DPO-R1)は、分配テールから金の軌跡を採掘するために、ベスト・オブ・Nサンプリング(例えば、$N \ge 8$)に依存している。
本稿では、このスケーリング仮説に挑戦し、数学的推論において、積極的な探索はリターンを減少させ、破滅的な政策崩壊さえも引き起こす反直観現象を明らかにする。
理論的には、$N$のスケーリングは検証器ノイズを増幅し、有害分布シフトを誘導する。
これを解決するために, ブルートフォースマイニングを世代ベースの補正戦略に置き換える「textbf{PACE}」(補正探索によるプロキシアライメント)を導入する。
最小限の予算(2<N<3$)で運用するPACEは、失敗した探索から高忠実度優先ペアを合成する。
実証的な評価では、PACEはDPO-R1$(N=16)をわずか1/5ドルの計算で上回り、報酬ハッキングやラベルノイズに対して優れた堅牢性を示す。
関連論文リスト
- A Relative-Budget Theory for Reinforcement Learning with Verifiable Rewards in Large Language Model Reasoning [48.70183357021465]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を改善するための主要なパラダイムである。
本稿では, 相対予算$:= H/mathbbE[T]$という単一の量を用いて, この変動を説明する式式予算理論を提案する。
報奨の分散と情報トラジェクトリの確率を制御して,$$がサンプル効率を決定することを示す。
論文 参考訳(メタデータ) (2026-02-02T01:31:52Z) - CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文 参考訳(メタデータ) (2025-10-17T14:04:37Z) - Near-Optimal Sample Complexities of Divergence-based S-rectangular Distributionally Robust Reinforcement Learning [11.495253774507118]
分散ロバスト強化学習(DR-RL)は,最近,訓練環境と試験環境の相違に対処する原則的アプローチとして注目されている。
堅牢性、保守性、および計算トレーサビリティのバランスをとるため、文献はSA-正方形およびS-正方形対向を持つDR-RLモデルを導入した。
発散型S矩形DR-RLに対する実験値反復アルゴリズムについて検討し, ほぼ最適サンプル複雑性境界を確立する。
論文 参考訳(メタデータ) (2025-05-18T02:35:39Z) - Fast Rates for Maximum Entropy Exploration [52.946307632704645]
エージェントが未知の環境下で活動し、報酬が得られない場合、強化学習(RL)における探索の課題に対処する。
本研究では,最大エントロピー探索問題を2つの異なるタイプで検討する。
訪問エントロピーには、$widetildemathcalO(H3S2A/varepsilon2)$ sample complexity を持つゲーム理論アルゴリズムを提案する。
軌道エントロピーに対しては,次数$widetildemathcalO(mathrmpoly(S,)の複雑さのサンプルを持つ単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-14T16:51:14Z) - Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds [24.571530193140916]
エントロピーリスク尺度(EntRM)が目的である有限エピソードマルコフ決定過程を考察する。
モデルフリーとモデルベースを含む2つの異なるスキームを用いて最適化を実装する2つの新しいDRLアルゴリズムを提案する。
いずれも$tildemathcalO(fracexp(|beta|H)-1|beta|HsqrtS2AK)$ regret upper bound, where $S$, $A$, $K$, $H$は数値を表す。
論文 参考訳(メタデータ) (2022-10-25T14:30:48Z) - Optimistic Posterior Sampling for Reinforcement Learning with Few
Samples and Tight Guarantees [43.13918072870693]
強化学習(OPSRL)のための楽観的後部サンプリングアルゴリズムを提案する。
殆どの$widetildemathcalO(sqrtH3SAT)$ ignoring $textpolylog(HSAT)$ termsにおいて、高い確率で再帰的な順序境界を保証する。
我々の境界は位数$Omega(sqrtH3SAT)$の下位境界と一致し、Agrawal と Jia が提起した開問題に答える。
論文 参考訳(メタデータ) (2022-09-28T20:49:34Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Toward Adversarial Robustness via Semi-supervised Robust Training [93.36310070269643]
アドリラルな例は、ディープニューラルネットワーク(DNN)に対する深刻な脅威であることが示されている。
R_stand$ と $R_rob$ の2つの異なるリスクを共同で最小化することで、新しい防御手法であるロバストトレーニング(RT)を提案する。
論文 参考訳(メタデータ) (2020-03-16T02:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。