論文の概要: Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.28005v1
- Date: Thu, 30 Apr 2026 15:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.164155
- Title: Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning
- Title(参考訳): カーネル化アドバンテージ推定:非パラメトリック統計からLLM推論へ
- Authors: Shijin Gong, Kai Ye, Jin Zhu, Xinyu Zhang, Hongyi Zhou, Chengchun Shi,
- Abstract要約: 大規模言語モデル(LLM)は、推論能力を改善するために強化学習(RL)に依存している。
i) 政策勾配のばらつきを低減するために、学習方針の価値関数を推定するために、深層ニューラルネットワークに依存し、アクター・クリティカルなアプローチが広く採用されている。
本研究では,プロンプト毎に少数の推論トレースのみをサンプリング可能な,実用的で資源に制約のある環境に着目する。
- 参考スコア(独自算出の注目度): 15.470169268203401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have increasingly relied on reinforcement learning (RL) to improve their reasoning capabilities. Three approaches have been widely adopted: (i) Proximal policy optimization and advantage actor-critic rely on a deep neural network to estimate the value function of the learning policy in order to reduce the variance of the policy gradient. However, estimating and maintaining such a value network incurs substantial computational and memory overhead. (ii) Group relative policy optimization (GRPO) avoids training a value network by approximating the value function using sample averages. However, GRPO samples a large number of reasoning traces per prompt to achieve accurate value function approximation, making it computationally expensive. (iii) REINFORCE-type algorithms sample only a single reasoning trajectory per prompt, which reduces computational cost but suffers from poor sample efficiency. In this work, we focus on a practical, resource-constrained setting in which only a small number of reasoning traces can be sampled per prompt, while low-variance gradient estimation remains essential for high-quality policy learning. To address this challenge, we bring classical nonparametric statistical methods, which are both computationally and statistically efficient, to LLM reasoning. We employ kernel smoothing as a concrete example for value function estimation and the subsequent policy optimization. Numerical and theoretical results demonstrate that our proposal achieves accurate value and gradient estimation, leading to improved policy optimization.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、推論能力を改善するために強化学習(RL)に依存している。
3つのアプローチが広く採用されている。
一 政策勾配のばらつきを低減するため、学習方針の価値関数を推定するために、親密な政策最適化とアクター・クリティカルの利点が深層ニューラルネットワークに依存している。
しかし、そのような値ネットワークの推定と維持は、かなりの計算とメモリオーバーヘッドを引き起こす。
(II)グループ相対政策最適化(GRPO)は,サンプル平均値を用いて値関数を近似することにより,価値ネットワークのトレーニングを回避する。
しかし、GRPOは正確な値関数近似を達成するために、プロンプト毎に多数の推論トレースをサンプリングし、計算コストがかかる。
3)REINFORCE型アルゴリズムは1プロンプト当たりの1つの推論軌道のみをサンプリングし,計算コストを低減させるが,サンプル効率の低下に悩まされる。
本研究では,質の高い政策学習において,低分散勾配推定が不可欠であるのに対して,プロンプト毎に少量の推論トレースをサンプリングできる実用的な資源制約設定に焦点をあてる。
この課題に対処するために、計算的かつ統計的に効率的な古典的ノンパラメトリック統計手法をLSM推論に適用する。
本稿では、値関数推定とその後のポリシー最適化の具体例としてカーネルスムーシングを用いる。
数値的および理論的結果は,提案手法が正確な値と勾配推定を達成し,政策最適化の改善につながることを証明している。
関連論文リスト
- A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models [15.638885149395657]
dLLMs確率関数の抽出可能性には、各ポリシー最適化ステップにおける現在の、古い、参照ポリシーの確率を近似する必要がある。
我々は、目的を重み付けされた可能性として再構成する、新しいポリシー最適化アプローチである$mathttwd1$を導入する。
広く使われている推論ベンチマークの実験では、$mathttwd1$は教師付き微調整(SFT)や教師付きデータなしで、dLLMの既存のRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-07-07T21:27:25Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。