論文の概要: KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2505.16826v1
- Date: Thu, 22 May 2025 16:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.425485
- Title: KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning
- Title(参考訳): KTAE:数理推論におけるキートークンのアドバンテージ推定のためのモデルフリーアルゴリズム
- Authors: Wei Sun, Wen Yang, Pu Jian, Qianlong Du, Fuwei Cui, Shuo Ren, Jiajun Zhang,
- Abstract要約: Key-token Advantage Estimation (KTAE)は、新たなモデルを導入することなく、きめ細かいトークンレベルの利点を推定する新しいアルゴリズムである。
GRPO+KTAEとDAPO+KTAEで訓練されたモデルは、5つの数学的推論ベンチマークにおいてベースライン法より優れていることを示す。
- 参考スコア(独自算出の注目度): 19.25257653416883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have demonstrated that integrating reinforcement learning with rule-based rewards can significantly enhance the reasoning capabilities of large language models, even without supervised fine-tuning. However, prevalent reinforcement learning algorithms such as GRPO and its variants like DAPO, suffer from a coarse granularity issue when computing the advantage. Specifically, they compute rollout-level advantages that assign identical values to every token within a sequence, failing to capture token-specific contributions and hindering effective learning. To address this limitation, we propose Key-token Advantage Estimation (KTAE) - a novel algorithm that estimates fine-grained, token-level advantages without introducing additional models. KTAE leverages the correctness of sampled rollouts and applies statistical analysis to quantify the importance of individual tokens within a sequence to the final outcome. This quantified token-level importance is then combined with the rollout-level advantage to obtain a more fine-grained token-level advantage estimation. Empirical results show that models trained with GRPO+KTAE and DAPO+KTAE outperform baseline methods across five mathematical reasoning benchmarks. Notably, they achieve higher accuracy with shorter responses and even surpass R1-Distill-Qwen-1.5B using the same base model.
- Abstract(参考訳): 近年の進歩は、強化学習と規則に基づく報酬を統合することで、教師付き微調整がなくても、大規模言語モデルの推論能力を大幅に向上できることを実証している。
しかし、GRPOやDAPOのような一般的な強化学習アルゴリズムは、利点を計算する際に粗い粒度の問題に悩まされる。
具体的には、シーケンス内のすべてのトークンに同じ値を割り当て、トークン固有のコントリビューションをキャプチャできず、効果的な学習を妨げるロールアウトレベルのアドバンテージを計算します。
この制限に対処するため、我々はKTAE(Key-token Advantage Estimation)を提案する。
KTAEはサンプリングされたロールアウトの正確性を活用し、統計的分析を適用して、シーケンス内の個々のトークンの重要性を最終的な結果に定量化する。
この量化トークンレベルの重要度とロールアウトレベルの優位性を組み合わせることで、よりきめ細かいトークンレベルの優位性推定が得られる。
実験結果から,GRPO+KTAEとDAPO+KTAEで学習したモデルは,5つの数学的推論ベンチマークにおいて,ベースライン法よりも優れていた。
特に、R1-Distill-Qwen-1.5Bよりも短い応答で高い精度を達成し、同じベースモデルでR1-Distill-Qwen-1.5Bを上回ります。
関連論文リスト
- Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。