論文の概要: Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.14386v1
- Date: Mon, 16 Feb 2026 01:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.03994
- Title: Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた複雑な推論のためのToken-Level Policy Gradients
- Authors: Mufan Xu, Kehai Chen, Xuefeng Bai, Zhengyu Niu, Muyun Yang, Tiejun Zhao, Min Zhang,
- Abstract要約: 本稿では,K連続トークン列を統一的な意味行動として扱うフレームワークを提案する。
数学的推論と符号化ベンチマークの実験により、MPOは標準的なトークンレベルのポリシー勾配ベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 49.65762241649762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing policy-gradient methods for auto-regressive language models typically select subsequent tokens one at a time as actions in the policy. While effective for many generation tasks, such an approach may not fully capture the structure of complex reasoning tasks, where a single semantic decision is often realized across multiple tokens--for example, when defining variables or composing equations. This introduces a potential mismatch between token-level optimization and the inherently block-level nature of reasoning in these settings. To bridge this gap, we propose Multi-token Policy Gradient Optimization (MPO), a framework that treats sequences of K consecutive tokens as unified semantic actions. This block-level perspective enables our method to capture the compositional structure of reasoning trajectories and supports optimization over coherent, higher-level objectives. Experiments on mathematical reasoning and coding benchmarks show that MPO outperforms standard token-level policy gradient baselines, highlight the limitations of token-level policy gradients for complex reasoning, motivating future research to look beyond token-level granularity for reasoning-intensive language tasks.
- Abstract(参考訳): 自動回帰言語モデルのための既存のポリシー段階の手法は、通常、ポリシーのアクションとして、後続のトークンを一度に選択する。
多くの世代タスクに有効であるが、そのようなアプローチは複雑な推論タスクの構造を完全には捉えておらず、例えば変数の定義や方程式の構成など、複数のトークンで単一の意味決定がしばしば実現される。
これにより、トークンレベルの最適化と、これらの設定における本質的にブロックレベルの推論とをミスマッチさせる可能性がある。
このギャップを埋めるために,K連続トークンのシーケンスを統一的なセマンティックアクションとして扱うフレームワークであるMPO(Multi-token Policy Gradient Optimization)を提案する。
このブロックレベルパースペクティブにより、推論軌道の合成構造を捉えることができ、コヒーレントで高レベルな目的に対する最適化を支援することができる。
数学的推論とコーディングベンチマークの実験では、MPOは標準的なトークンレベルのポリシー勾配を上回り、複雑な推論のためのトークンレベルのポリシー勾配の制限を強調し、推論集約型言語タスクのトークンレベルの粒度を超えるように将来の研究を動機付けている。
関連論文リスト
- Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - From Language to Logic: A Bi-Level Framework for Structured Reasoning [6.075080928704587]
自然言語入力に対する構造化推論は、人工知能における中核的な課題である。
本稿では,ハイレベルなタスク抽象化と低レベルなロジック生成という2段階のプロセスを通じて,言語を論理にマッピングする新しいフレームワークを提案する。
提案手法は既存のベースラインの精度を著しく上回り,精度は最大40%向上した。
論文 参考訳(メタデータ) (2025-07-11T11:24:09Z) - Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文 参考訳(メタデータ) (2025-06-04T14:58:27Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。