論文の概要: Exploiting Tree Structure for Credit Assignment in RL Training of LLMs
- arxiv url: http://arxiv.org/abs/2509.18314v1
- Date: Mon, 22 Sep 2025 18:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.527992
- Title: Exploiting Tree Structure for Credit Assignment in RL Training of LLMs
- Title(参考訳): LLMのRLトレーニングにおけるクレジットアサインメントのための木構造の検討
- Authors: Hieu Tran, Zonghai Yao, Hong Yu,
- Abstract要約: 強化学習は推論を改善するが、長いシーケンスよりも遅れた報酬はトークンレベルのクレジット割り当てを重要なボトルネックにする。
最終回答がチェック可能で、プロンプト毎に複数の応答を描画できる検証可能な逆設定について検討する。
textbfTEMPO (emphtextbfTree-textbfEstimated textbfMean Prefix Value for textbfPolicy textbfOptimization)を提案する。
- 参考スコア(独自算出の注目度): 11.64053639889468
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning improves LLM reasoning, yet sparse delayed reward over long sequences makes token-level credit assignment the key bottleneck. We study the verifiable-reward setting, where the final answer is checkable and multiple responses can be drawn per prompt. Reasoning tasks in math and medical QA align with this setup, where only a few decision tokens significantly impact the outcome. PPO offers token-level advantages with a learned value model, but it is complex to train both the actor and critic models simultaneously, and it is not easily generalizable, as the token-level values from the critic model can make training prone to overfitting. GRPO is critic-free and supports verifiable rewards, but spreads a single sequence-level return across tokens and ignores branching. We introduce \textbf{Prefix-to-Tree (P2T)}, a simple procedure that converts a group of responses into a prefix tree and computes \emph{nonparametric} prefix values \(V(s)\) by aggregating descendant outcomes. Built on P2T, we propose \textbf{TEMPO} (\emph{\textbf{T}ree-\textbf{E}stimated \textbf{M}ean Prefix Value for \textbf{P}olicy \textbf{O}ptimization}), a critic-free algorithm that augments the group-relative outcome signal of GRPO with \emph{branch-gated} temporal-difference corrections derived from the tree. At non-branch tokens, the temporal-difference (TD) term is zero, so TEMPO reduces to GRPO; at branching tokens, it supplies precise token-level credit without a learned value network or extra judges/teachers. On Qwen3-1.7B/4B, TEMPO outperforms PPO and GRPO on in-distribution (MATH, MedQA) and out-of-distribution (GSM-HARD, AMC23, MedMCQA, MMLU-Medical) benchmarks, and reaches higher validation accuracy with roughly the same wall-clock time.
- Abstract(参考訳): 強化学習はLLM推論を改善するが、長いシーケンスよりも少ない遅延報酬はトークンレベルのクレジット割り当てを重要なボトルネックにする。
最終回答がチェック可能で、プロンプト毎に複数の応答を描画できる検証可能な逆設定について検討する。
数学と医学のQAにおけるタスクの推論は、いくつかの決定トークンだけが結果に大きな影響を及ぼすこの設定と一致します。
PPOは、学習された価値モデルでトークンレベルの利点を提供するが、アクターと批評家モデルの両方を同時に訓練することは複雑であり、批判モデルのトークンレベルの値が過度に適合する傾向にあるため、容易に一般化できない。
GRPOは批判のない、検証可能な報酬をサポートするが、トークンに単一のシーケンスレベルの戻り値を広げ、分岐を無視する。
これは、応答のグループをプレフィックスツリーに変換し、子孫の結果を集約することで、emph{nonparametric}プレフィックス値 \(V(s)\) を計算する単純な手順である。
P2T に基づいて構築された GRPO (\emph{\textbf{T}ree-\textbf{E}stimated \textbf{M}ean Prefix Value for \textbf{P}olicy \textbf{O}ptimization}) は、木から派生した時間差補正によりGRPO の集団相対的な結果信号を強化する。
非分岐トークンでは、時間差(TD)項はゼロなので、TEMPOはGRPOに還元される。
Qwen3-1.7B/4B では、TEMPO は in-distriion (MATH, MedQA) と out-of-distriion (GSM-HARD, AMC23, MedMCQA, MMLU-Medical) のベンチマークで PPO と GRPO を上回り、ほぼ同じ壁時計時間で高い検証精度に達する。
関連論文リスト
- AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth [23.442686851761298]
AdaPonderLMは、事前トレーニング中にトークン単位の早期終了を学習する、自己教師型リカレント言語モデルである。
AdaPonderLMは、比較可能な言語モデリングの難易度と競合する下流の精度を維持しながら、推論計算を約10%削減する。
論文 参考訳(メタデータ) (2026-03-02T14:28:16Z) - Speculative Decoding Speed-of-Light: Optimal Lower Bounds via Branching Random Walks [39.54576236079211]
投機生成は、大規模言語モデルにおける推論を加速する有望な手法として登場した。
本研究では,任意の決定論的投機生成アルゴリズムのランタイム上での最初のタイトな下限を確立する。
論文 参考訳(メタデータ) (2025-12-12T16:54:33Z) - Multi-GRPO: Multi-Group Advantage Estimation for Text-to-Image Generation with Tree-Based Trajectories and Multiple Rewards [18.89733659101796]
グループ相対政策最適化は、テキスト・ツー・イメージ(T2I)モデルを整列させる有望な可能性を示している。
既存のGRPOベースの手法には2つの限界がある。
マルチグループゲイン推定フレームワークである textbfMulti-GRPO を提案する。
論文 参考訳(メタデータ) (2025-11-30T05:44:35Z) - SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization [24.699488237384134]
トークン選択型テスト時間強化学習フレームワークであるSPINEを提案する。
我々はSPINEがTTRLよりもPass@1を継続的に改善し、応答長の崩壊を避けていることを示す。
これらの結果から, 分岐点の整合性は, 安定かつ効果的なテスト時間適応のための単純かつラベルのない機構であることが示唆された。
論文 参考訳(メタデータ) (2025-11-22T06:32:34Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - Tree Reward-Aligned Search for TReASURe in Masked Diffusion Language Models [13.433506313486701]
ツリー検索は、生成モデルとタスク固有の報酬をテスト時に整合させる強力なフレームワークとして登場した。
これらの問題に対処する木探索テスト時間アライメント手法であるTReASUReを提案する。
TReASUReは、パープレキシティ、言語受容性、感情と毒性の制御に関する最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-27T06:22:45Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy [0.0]
グループ相対政策最適化(GRPO)のようなアルゴリズムによる強化学習(RL)は、LLM推論を改善する。
本稿では,textbfDynamic Entropy Weightingを用いてこの問題を解決する。
私たちの中核的な考え方は、正しい応答における高エントロピートークンは、より高いパフォーマンスの天井に向かってポリシーを導くことができるということです。
論文 参考訳(メタデータ) (2025-08-06T11:42:47Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。