論文の概要: Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Markov Likelihood
- arxiv url: http://arxiv.org/abs/2510.09369v1
- Date: Fri, 10 Oct 2025 13:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.097977
- Title: Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Markov Likelihood
- Title(参考訳): Token-Level Policy Optimization:Markov LikelihoodによるToken-Level RewardsとToken-Level Aggregationのリンク
- Authors: Xingyu Lin, Yilin Wen, En Wang, Du Su, Wenbin Liu, Chenfu Bao, Zhonghou Lv,
- Abstract要約: TEPOはトークンレベルのアグリゲーションを通じてグループレベルの報酬とトークンをリンクする,Markov Likelihood(シーケンス可能性)を組み込んだ新しいトークンレベルのフレームワークである。
実験によると、TEPOは主要なメトリクスで既存のベースラインを一貫して上回っている。
数学的推論タスクに新たな技術状態を設定するだけでなく、トレーニングの安定性を著しく向上させる。
- 参考スコア(独自算出の注目度): 9.335167757513046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has significantly advanced the reasoning ability of large language models (LLMs), particularly by boosting their mathematical performance. However, GRPO and related entropy-regularization methods still face challenges rooted in the sparse token rewards inherent to chain-of-thought (CoT). Current approaches often rely on undifferentiated token-level entropy adjustments, which frequently lead to entropy collapse or model collapse. In this work, we propose TEPO, a novel token-level framework that incorporates Markov Likelihood (sequence likelihood) links group-level rewards with tokens via token-level aggregation. Experiments show that TEPO consistently outperforms existing baselines across key metrics (including @k and accuracy). It not only sets a new state of the art on mathematical reasoning tasks but also significantly enhances training stability.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は大規模言語モデル(LLM)の推論能力を大幅に向上させ、特に数学的性能を高めている。
しかし、GRPOと関連するエントロピー規則化手法は、チェーン・オブ・シント(CoT)固有のスパーストークン報酬に根ざした課題に直面している。
現在のアプローチは、しばしば未分化のトークンレベルのエントロピー調整に依存し、しばしばエントロピーの崩壊やモデル崩壊につながる。
本稿では,トークンレベルのアグリゲーションによるグループレベルの報酬とトークンをリンクする,Markov Likelihoodを組み込んだ新しいトークンレベルのフレームワークTEPOを提案する。
実験によると、TEPOはキーメトリクス(@kと精度を含む)で既存のベースラインを一貫して上回っている。
数学的推論タスクに新たな最先端を設定できるだけでなく、トレーニングの安定性を大幅に向上させる。
関連論文リスト
- GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy [5.691990020513277]
本稿では,2つの新しいアルゴリズムによる報酬の微粒化を促進するメカニズムである動的エントロピー重み付けを提案する。
報酬形成のための政策のエントロピーを再取得することで、我々は真にトークン単位の信用割り当てを達成できる。
論文 参考訳(メタデータ) (2025-08-06T11:42:47Z) - TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization [73.16975077770765]
近年の強化学習の進歩は、きめ細かいトークンレベルの報酬モデルを利用することで、PPO(Pximal Policy Optimization)の性能を大幅に向上させることができることを示している。
直接選好最適化(DPO)のガイダンスとしてこのようなトークンレベルの報酬を活用することは困難である。
この研究は、PPOをトークンレベルのポリシー最適化問題列に分解し、トークンレベルの報酬ガイダンスでトークンレベルのPPOの問題をフレーム化する。
論文 参考訳(メタデータ) (2025-06-17T14:30:06Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。