論文の概要: Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2512.15687v1
- Date: Wed, 17 Dec 2025 18:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.105553
- Title: Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning
- Title(参考訳): LLMは独自の探索をガイドできるか? LLM推論のためのグラディエントガイド強化学習
- Authors: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu,
- Abstract要約: 新しい勾配方向を導入する軌道は、有界乗算型報酬スケーラを受信する。
G2RLは、エントロピーベースのGRPOおよび外部埋め込みメソッドよりも、pass@1、maj@16、pass@kを一貫して改善する。
- 参考スコア(独自算出の注目度): 44.07085022671951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.
- Abstract(参考訳): 強化学習は、大規模言語モデルの推論能力を強化するために欠かせないものとなっているが、現在の探索メカニズムは、これらのモデルが実際にどのように学習するかを根本的に誤解している。
エントロピーボーナスと外部セマンティックコンパレータは表面レベルの変動を奨励するが、サンプリングされた軌道が最適化を形作る更新方向で異なるという保証は与えない。
G2RLは、探索を外部ヒューリスティックではなく、モデル自身の一階更新幾何によって駆動する勾配誘導強化学習フレームワークである。
各応答について、G2RLはモデル最終層感度から、標準前方通過から無視可能なコストで取得可能なシーケンスレベル特徴を構築し、これらの特徴をサンプルグループ内で比較することで、各軌道がどのようにポリシーを再形成するかを測定する。
新たな勾配方向を導入した軌道は、有界乗算型報酬スケーラを受け取り、冗長またはオフの多様体更新は強調され、自然にPPOスタイルの安定性とKL制御に整合した自己参照探索信号が得られる。
Qwen3 ベース 1.7B と 4B モデル上の数学および一般的な推論ベンチマーク (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) 全体にわたって、G2RL はエントロピーベースのGRPO および外部埋め込みメソッドに対するpass@1, maj@16, pass@k を一貫して改善している。
その結果, G2RLは, 意味的一貫性を維持しつつ, より直交的, しばしば反対方向へと探索を拡大し, 政策自体の更新空間は, 大規模言語モデル強化学習における探索を導く上で, より忠実かつ効果的な基盤を提供することがわかった。
関連論文リスト
- GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment [16.343768407636322]
本稿では,自己指導型ポストトレーニングフレームワークであるReinforcement Learning with World Grounding(RLWG)を紹介する。
このフレームワークをGrndCtrlでインスタンス化する。GrndCtrlは、グループ相対ポリシー最適化(GRPO)に基づく報酬整合型適応手法で、安定な軌道の維持、一貫した幾何、エンボディナビゲーションのための信頼性のあるロールアウトを行う世界モデルを生成する。
論文 参考訳(メタデータ) (2025-12-01T18:03:29Z) - Cognitive Maps in Language Models: A Mechanistic Analysis of Spatial Planning [2.1115884707107715]
我々はグリッド環境における3つの空間学習パラダイムに基づいてGPT-2モデルを訓練する。
行動、表現、機械的分析を用いて、2つの基本的な異なる学習アルゴリズムを明らかにする。
論文 参考訳(メタデータ) (2025-11-17T13:46:19Z) - Off-policy Reinforcement Learning with Model-based Exploration Augmentation [29.61835214523957]
我々は,未探索臨界状態の生成を通じて探索を強化するモデル生成探索(MoGE)を提案する。
MoGEは,(1)政策探索における各州の潜在的影響を評価するユーティリティ関数の指導の下で臨界状態を合成する拡散型ジェネレータと,(2)エージェント学習の臨界状態に基づく臨界遷移を構築するための一段階の想像的世界モデルとから構成される。
提案手法では,非政治学習の原則に則ったモジュール型定式化を採用し,既存のアルゴリズムとのシームレスな統合により,コア構造を変更することなく探索を改善する。
論文 参考訳(メタデータ) (2025-10-29T13:53:52Z) - Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。
具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。
拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文 参考訳(メタデータ) (2023-05-30T11:34:57Z) - Model-Free Generative Replay for Lifelong Reinforcement Learning:
Application to Starcraft-2 [5.239932780277599]
生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。
本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
論文 参考訳(メタデータ) (2022-08-09T22:00:28Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。