Fugu-MT 論文翻訳(概要): Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR

論文の概要: Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR

arxiv url: http://arxiv.org/abs/2602.12642v1
Date: Fri, 13 Feb 2026 06:04:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-16 23:37:53.863503
Title: Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR
Title（参考訳）: 正規化を超えて:分割関数をRLVRの難易度スケジューリングとして再考
Authors: Dohyung Kim, Minbeom Kim, Jeonghye Kim, Sangmook Lee, Sojeong Rhee, Kyomin Jung,
Abstract要約: 本稿では,学習中の情報的質問文の優先順位付けに精度推定を利用するポストトレーニングフレームワークを提案する。 PACED-RL は LLM のより効率的な分布マッチング訓練のための有望な方向である。
参考スコア（独自算出の注目度）: 23.417956258945427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward-maximizing RL methods enhance the reasoning performance of LLMs, but often reduce the diversity among outputs. Recent works address this issue by adopting GFlowNets, training LLMs to match a target distribution while jointly learning its partition function. In contrast to prior works that treat this partition function solely as a normalizer, we reinterpret it as a per-prompt expected-reward (i.e., online accuracy) signal, leveraging this unused information to improve sample efficiency. Specifically, we first establish a theoretical relationship between the partition function and per-prompt accuracy estimates. Building on this key insight, we propose Partition Function-Guided RL (PACED-RL), a post-training framework that leverages accuracy estimates to prioritize informative question prompts during training, and further improves sample efficiency through an accuracy estimate error-prioritized replay. Crucially, both components reuse information already produced during GFlowNet training, effectively amortizing the compute overhead into the existing optimization process. Extensive experiments across diverse benchmarks demonstrate strong performance improvements over GRPO and prior GFlowNet approaches, highlighting PACED-RL as a promising direction for a more sample efficient distribution-matching training for LLMs.
Abstract（参考訳）: 逆最大化RL法はLLMの推論性能を高めるが,出力の多様性を低下させることが多い。最近の研究は、GFlowNetsを採用することでこの問題に対処し、LLMを目標の分布に合わせてトレーニングし、パーティション関数を共同で学習している。この分割関数を正規化器としてのみ扱う以前の研究とは対照的に、我々はこの未使用情報を利用してサンプル効率を向上させるために、これをプロンプト毎の予測逆(オンライン精度)信号として再解釈する。具体的には,まず,分割関数とプロンプト毎の精度推定との理論的関係を確立する。この重要な知見に基づいて、我々は、トレーニング中の情報的質問プロンプトの優先順位付けに精度推定を利用する後学習フレームワークである分割関数誘導RL(PACED-RL)を提案し、さらに精度推定誤差優先リプレイによりサンプル効率を向上させる。重要なことに、両方のコンポーネントはGFlowNetトレーニング中に作成された情報を再利用し、計算オーバーヘッドを既存の最適化プロセスに効果的に保存する。多様なベンチマークにわたる大規模な実験は、GRPOやGFlowNetのアプローチよりも強力なパフォーマンス向上を示し、PACED-RLをLLMのより効率的な分散マッチングトレーニングの有望な方向として強調している。

関連論文リスト

Enhancing Reasoning for Diffusion LLMs via Distribution Matching Policy Optimization [44.14678335188207]
拡散大言語モデル(dLLM)は自己回帰大言語モデル(AR-LLM)の代替として有望である強化学習(RL)は、推論などの重要なタスクにおいて、AR-LLMと同等のパフォーマンスを達成するために、dLLMにとって重要なコンポーネントである。本稿では,原理的かつ理論的に基礎付けられたRL微調整法である分散マッチングポリシー最適化(DMPO)を提案する。
論文参考訳（メタデータ） (2025-10-09T13:59:50Z)
DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。 RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文参考訳（メタデータ） (2025-10-02T16:57:24Z)
CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文参考訳（メタデータ） (2025-10-01T15:41:27Z)
Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。 LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-08-08T15:56:49Z)
Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文参考訳（メタデータ） (2025-08-07T17:53:47Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。 FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。