論文の概要: SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.06411v1
- Date: Sun, 09 Nov 2025 14:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.930759
- Title: SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization
- Title(参考訳): SofT-GRPO:Gumbel-Reparameterized Soft-Thinking Policy Optimizationによる離散型LLM強化学習をパスする
- Authors: Zhi Zheng, Wee Sun Lee,
- Abstract要約: 大規模言語モデル(LLM)推論のためのソフトシンキングパラダイムは、従来の離散的整合性推論(CoT)推論よりも優れている。
本稿では,LLMをソフト思考の推論パターン下で強化する新しいポリシー最適化アルゴリズム,SofT-GRPOを提案する。
1.5B から 7B までの基本的な LLM 実験を行い,SofT-GRPO がソフト思考型 LLM の離散的 GRPO をわずかに上回っていることを示す。
- 参考スコア(独自算出の注目度): 18.05072303874982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The soft-thinking paradigm for Large Language Model (LLM) reasoning can outperform the conventional discrete-token Chain-of-Thought (CoT) reasoning in some scenarios, underscoring its research and application value. However, while the discrete-token CoT reasoning pattern can be reinforced through policy optimization algorithms such as group relative policy optimization (GRPO), extending the soft-thinking pattern with Reinforcement Learning (RL) remains challenging. This difficulty stems from the complexities of injecting stochasticity into soft-thinking tokens and updating soft-thinking policies accordingly. As a result, previous attempts to combine soft-thinking with GRPO typically underperform their discrete-token GRPO counterparts. To fully unlock the potential of soft-thinking, this paper presents a novel policy optimization algorithm, SofT-GRPO, to reinforce LLMs under the soft-thinking reasoning pattern. SofT-GRPO injects the Gumbel noise into logits, employs the Gumbel-Softmax technique to avoid soft-thinking tokens outside the pre-trained embedding space, and leverages the reparameterization trick in policy gradient. We conduct experiments across base LLMs ranging from 1.5B to 7B parameters, and results demonstrate that SofT-GRPO enables soft-thinking LLMs to slightly outperform discrete-token GRPO on Pass@1 (+0.13% on average accuracy), while exhibiting a substantial uplift on Pass@32 (+2.19% on average accuracy). Codes and weights are available on https://github.com/zz1358m/SofT-GRPO-master
- Abstract(参考訳): 大規模言語モデル(LLM)推論のためのソフトシンキングパラダイムは、いくつかのシナリオにおいて従来の離散的理解の連鎖理論(CoT)推論よりも優れ、その研究とアプリケーション価値を裏付ける。
しかし,グループ相対的政策最適化(GRPO)などのポリシー最適化アルゴリズムによって,離散的なCoT推論パターンが強化される一方で,強化学習(RL)によるソフト思考パターンの拡張は依然として困難である。
この難しさは、ソフトシンキングトークンに確率性を注入し、それに応じてソフトシンキングポリシーを更新する複雑さに起因している。
その結果、従来のGRPOとソフトシンキングを組み合わせようとする試みは、一般的には離散的なGRPOよりも優れていた。
ソフト思考の可能性を完全に解き明かすために,ソフト思考の推論パターンの下でLSMを補強する新しいポリシー最適化アルゴリズム,SofT-GRPOを提案する。
SofT-GRPO はガムベルノイズをロジットに注入し、Gumbel-Softmax 技術を用いて、事前訓練された埋め込み空間の外にあるソフトシンキングトークンを回避し、ポリシー勾配における再パラメータ化のトリックを利用する。
その結果,SofT-GRPOはPass@1(平均精度は+0.13%)でソフト思考のGRPOをわずかに上回り,Pass@32(平均精度は+2.19%)でかなりの上昇を示した。
コードとウェイトはhttps://github.com/zz1358m/SofT-GRPO-masterで入手できる。
関連論文リスト
- $λ$-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences [22.199479724764725]
トークンレベルの重み付けを適応的に制御する学習可能なパラメータ$lambda$を導入します。
lambda$-GRPOはバニラGRPOとDAPOよりも一貫した改善を実現しています。
これらの利益は、トレーニングデータの変更や追加の計算コストなしで得られます。
論文 参考訳(メタデータ) (2025-10-08T10:39:07Z) - Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning [64.04741347596938]
Token Hidden Reward (THR) はトークンレベルのメトリクスで、それぞれのトークンが正しい応答の確率に与える影響を定量化する。
トレーニングダイナミクスは、高い絶対THR値を持つトークンの小さなサブセットに支配されている。
この知見は、GRPOの学習信号を修正し、エクスプロイトや探索に向けて明示的にバイアストレーニングを行うTHR誘導再重み付けアルゴリズムを示唆している。
論文 参考訳(メタデータ) (2025-10-04T04:49:44Z) - HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs [54.16300997612526]
大規模言語モデル (LLM) は、複雑なタスクの正確性を改善するために、Chain-of-Thought (CoT) 推論にますます依存している。
本稿では適応推論制御のフレームワークであるHybrid Policy Optimization(HiPO)を紹介する。
数学とコーディングベンチマークによる実験は、HiPOがトークン長を大幅に削減し、正確性を維持したり改善したりすることを示した。
論文 参考訳(メタデータ) (2025-09-28T16:46:12Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。