論文の概要: GPG: Generalized Policy Gradient Theorem for Transformer-based Policies
- arxiv url: http://arxiv.org/abs/2512.10365v1
- Date: Thu, 11 Dec 2025 07:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.24595
- Title: GPG: Generalized Policy Gradient Theorem for Transformer-based Policies
- Title(参考訳): GPG:トランスフォーマーベースの政策に関する一般政策勾配理論
- Authors: Hangyu Mao, Guangting Dong, Zhicheng Dou,
- Abstract要約: 本稿では,Transformer ベースのポリシに特化して設計された Generalized Policy Gradient (GPG) Theorem を紹介する。
特に、GPGフレームワーク内の特別なケースとして、標準ポリシー勾配定理とGRPOの両方が出現することを示します。
- 参考スコア(独自算出の注目度): 53.200540736223395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Generalized Policy Gradient (GPG) Theorem, specifically designed for Transformer-based policies. Notably, we demonstrate that both standard Policy Gradient Theorem and GRPO emerge as special cases within our GPG framework. Furthermore, we explore its practical applications in training Large Language Models (LLMs), offering new insights into efficient policy optimization.
- Abstract(参考訳): 本稿では,Transformer ベースのポリシに特化して設計された Generalized Policy Gradient (GPG) Theorem を紹介する。
特に、GPGフレームワーク内の特別なケースとして、標準ポリシー勾配定理とGRPOの両方が出現することを示します。
さらに,Large Language Models (LLMs) の訓練における実用的応用について検討し,効率的な政策最適化に関する新たな洞察を提供する。
関連論文リスト
- Residual Policy Gradient: A Reward View of KL-regularized Objective [48.39829592175419]
強化学習と模倣学習は多くの領域で広く成功しているが、実世界の展開には制約が残っている。
ポリシーのカスタマイズは、その固有の特性を維持しつつ、新しいタスク固有の要件を満たしながら、事前のポリシーに適応することを目的として導入された。
ポリシーのカスタマイズに対する原則的なアプローチはResidual Q-Learning (RQL)であり、マルコフ決定プロセス(MDP)として問題を定式化し、価値に基づく学習アルゴリズムのファミリを導出する。
RQLをポリシーグラデーションメソッドに拡張し、グラデーションベースのRL設定でのポリシーカスタマイズを可能にするResidual Policy Gradient(RPG)を導入する。
論文 参考訳(メタデータ) (2025-03-14T02:30:13Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning [30.767979998925437]
汎用ユーティリティ(RLGU)による強化学習は、標準的な期待したリターンを超えた問題をキャプチャする統一フレームワークを提供する。
標準RL政策勾配法(PG法)の理論的解析の最近の進歩とRLGUにおける最近の取り組みは依然として限られている。
RLGUにおけるPG手法のグローバルな最適性保証を確立する。
論文 参考訳(メタデータ) (2024-10-05T10:24:07Z) - Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality [0.5261718469769449]
The novel Policy Gradient (PG) algorithm called $textitMatryoshka Policy Gradient$ (MPG) is introduced and study。
我々は,MPGのグローバル収束とともに,エントロピー正規化目標の最適方針を証明し,特徴付ける。
概念実証として,標準テストベンチマークでMPGを数値的に評価する。
論文 参考訳(メタデータ) (2023-03-22T17:56:18Z) - A Novel Framework for Policy Mirror Descent with General
Parameterization and Linear Convergence [15.807079236265714]
ミラー降下に基づくポリシー最適化のための新しいフレームワークを提案する。
一般パラメータ化を含む政策次数法に対して線形収束を保証する最初の結果を得る。
論文 参考訳(メタデータ) (2023-01-30T18:21:48Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。