論文の概要: Reference-Sampled Boltzmann Projection for KL-Regularized RLVR: Target-Matched Weighted SFT, Finite One-Shot Gaps, and Policy Mirror Descent
- arxiv url: http://arxiv.org/abs/2605.02469v1
- Date: Mon, 04 May 2026 11:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.257996
- Title: Reference-Sampled Boltzmann Projection for KL-Regularized RLVR: Target-Matched Weighted SFT, Finite One-Shot Gaps, and Policy Mirror Descent
- Title(参考訳): KL規則化RLVRのための基準サンプリングボルツマン投影:ターゲットマッチング重み付きSFT、有限1ショットギャップ、およびポリシーミラーディフレクション
- Authors: Yao Shu, Chenxing Wei, Hongbin Lin, Shuang Qiu, Hui Xiong,
- Abstract要約: 本稿では,提案手法が固定参照KLVRと等しい基準サンプリング重み付きSFT目標について述べる。
単発Qwen実験は、目標整合重量、一発飽和、リフレッシュサンプラーゲイン、最適化時間の節約の予測証拠を提供する。
- 参考スコア(独自算出の注目度): 28.166458412533967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online reinforcement learning with verifiable rewards (RLVR) turns checkable outcomes into a scalable training signal, but it keeps rollout generation, verifier scoring, and reference-policy evaluations on the optimization path. Static weighted supervised fine-tuning (SFT) on precomputed rollouts seems to remove this bottleneck, yet a weighted likelihood is not specified by rewards alone: its sampler and weights induce the policy being fit. This paper identifies the reference-sampled weighted-SFT objective whose induced policy equals the fixed-reference KL-regularized RLVR optimizer. The optimizer is the standard Boltzmann target policy, obtained by exponentially tilting the reference policy by verifier reward. Matching a weighted-SFT induced policy to this target forces density-ratio weights; in the reference-sampled subclass, this reduces uniquely, up to prompt scaling, to the prompt-normalized Boltzmann weight $\exp(r(x,y)/β)/Z(x)$. BOLT, a Boltzmann-Targeted SFT procedure, is the empirical estimator of this projection. The finite one-shot analysis separates the exact stored-support price $β\log(1/π^*(S_N\mid x))$ from partition estimation, effective-sample-size variance, generalization, optimization, and approximation errors. This decomposition explains why extra SFT epochs cannot repair missing reference-policy coverage and exposes the temperature--coverage--variance frontier. When coverage needs adaptive sampling, refreshed Boltzmann projections become KL policy mirror descent; finite inner solves enter as additive drift from the exact mirror step. Single-run Qwen experiments provide projection evidence for the target-matched weight, one-shot saturation, refreshed-sampler gains, and optimization-time savings, within the stated single-run scope.
- Abstract(参考訳): 検証可能な報酬(RLVR)を用いたオンライン強化学習は、チェック可能な結果をスケーラブルなトレーニング信号に変換するが、最適化パスにおけるロールアウト生成、検証者スコアリング、参照ポリシ評価を継続する。
事前計算されたロールアウトに関する静的重み付き微調整(SFT)は、このボトルネックを取り除くように見えるが、報酬のみによって重み付き可能性は特定されていない。
本稿では,固定参照KL正規化RLVRオプティマイザと同等の誘導ポリシを持つ基準サンプリング重み付きSFT目標について述べる。
このオプティマイザは標準ボルツマン目標ポリシーであり、検証者報酬によって指数関数的に基準ポリシーを傾けることによって得られる。
このターゲットに重み付きSFT誘導ポリシーを合わせると、密度比重が増大し、参照サンプリングされたサブクラスでは、即時スケーリングまで、即時正規化されたボルツマン重み $\exp(r(x,y)/β)/Z(x)$ まで、一意に減少する。
Boltzmann-Targeted SFT法であるBOLTは、この射影の実験的推定器である。
有限ワンショット解析は、正確に保存されたサポート価格$β\log(1/π^*(S_N\mid x))$を分割推定、有効サンプルサイズ分散、一般化、最適化、近似誤差から分離する。
この分解は、余分なSFTエポックが欠落した参照ポリシーカバレッジを修復できない理由を説明し、温度-被覆-分散フロンティアを露呈する。
適用サンプリングが必要な場合、リフレッシュされたボルツマン射影はKLポリシーミラー降下となる。
シングルランQwen実験は、単一ランの範囲内で、目標整合重量、一発飽和、リフレッシュサンプラーゲイン、最適化時間の節約の予測証拠を提供する。
関連論文リスト
- Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - Zero-Order Optimization for LLM Fine-Tuning via Learnable Direction Sampling [40.94400211806987]
摂動方向のサンプリング分布を学習可能なポリシとして扱う政策駆動型ZOフレームワークを提案する。
学習したサンプリングは、品質勾配情報を改善し、$d$の収束境界への明示的な依存を緩和することを示す。
以上の結果から,適応方向サンプリングはZOの微調整を大規模に実現する上で有望な方法であることが示唆された。
論文 参考訳(メタデータ) (2026-02-14T08:01:41Z) - Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training [33.61029387987583]
政策ミラー降下(PMD)は強化学習のための原則的枠組みを提供する
PMD-mean(英語版)と呼ばれる実用的アルゴリズムについて検討し、サンプリングポリシーの下での対数分割項と平均報酬とを近似する。
数学推論タスクの実験により, PMD-meanは安定性と時間効率を向上し, 優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-05T17:44:28Z) - Goal inference with Rao-Blackwellized Particle Filters [5.633221187382381]
軌跡のノイズ観測から移動エージェントの最終的な目標を推定することは基本的な推定問題である。
我々は、ラオブラックウェル化粒子フィルタ(RBPF)の変種を用いて、そのような意図推論を行う。
我々は,情報理論漏洩指標を用いて,敵がエージェントの意図をどの程度回復できるかを定量化する。
論文 参考訳(メタデータ) (2025-12-10T02:48:55Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。