論文の概要: Delightful Policy Gradient
- arxiv url: http://arxiv.org/abs/2603.14608v1
- Date: Sun, 15 Mar 2026 21:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.9162
- Title: Delightful Policy Gradient
- Title(参考訳): 楽しい政策グラディエント
- Authors: Ian Osband,
- Abstract要約: 標準政策は、その行動が現在の政策の下にある可能性に関係なく、各アクションを単独でサンプリングした。
textitDelightful Policy Gradient (DG)を導入し、Emphdelightのシグミド、利点の産物、およびアクション・サプライサル(負の対数確率)を各項にゲートする。
$Kの武器を持つ包帯の場合、DGは単一のコンテキストにおける方向精度を確実に改善し、複数のコンテキストにわたって、期待される勾配を教師付きクロスエントロピーオラクルに近づける。
- 参考スコア(独自算出の注目度): 1.1886634182318419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard policy gradients weight each sampled action by advantage alone, regardless of how likely that action was under the current policy. This creates two pathologies: within a single decision context (e.g. one image or prompt), a rare negative-advantage action can disproportionately distort the update direction; across many such contexts in a batch, the expected gradient over-allocates budget to contexts the policy already handles well. We introduce the \textit{Delightful Policy Gradient} (DG), which gates each term with a sigmoid of \emph{delight}, the product of advantage and action surprisal (negative log-probability). For $K$-armed bandits, DG provably improves directional accuracy in a single context and, across multiple contexts, shifts the expected gradient strictly closer to the supervised cross-entropy oracle. This second effect is not variance reduction: it persists even with infinite samples. Empirically, DG outperforms REINFORCE, PPO, and advantage-weighted baselines across MNIST, transformer sequence modeling, and continuous control, with larger gains on harder tasks.
- Abstract(参考訳): 標準政策のグラデーションは、その行動が現在の政策の下にある可能性に関係なく、各アクションのサンプルを単独で重み付けする。
単一の決定コンテキスト(例えば1つのイメージやプロンプト)内では、まれな負のアドバンテージアクションが更新方向を不均等に歪めてしまう可能性がある。
本稿では,各項にアドバンテージの積である「emph{delight}」のシグモノイドをゲートする「textit{Delightful Policy Gradient} (DG)」を紹介した。
$Kの武器を持つ包帯の場合、DGは単一のコンテキストにおける方向精度を確実に改善し、複数のコンテキストにわたって、期待される勾配を教師付きクロスエントロピーオラクルに近づける。
この2つ目の効果は分散還元ではなく、無限サンプルでも持続する。
経験的に、DGはREINFORCE、PPO、およびMNIST、トランスフォーマーシーケンスモデリング、継続的な制御に優れており、より難しいタスクにより大きな利益をもたらしている。
関連論文リスト
- Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows [11.159970460746164]
実世界のインタラクション予算の制限と多モードなアクション分布のため、厳密な操作ポリシーの現実世界の微調整は困難である。
正規化フロー(NF)を用いたサンプル効率の良いオフポリチック微調整フレームワークSOFT-FLOWを提案する。
これは、可能性に基づくマルチモーダルな生成ポリシーと、実際のロボットハードウェアにおけるチャンクレベルの価値学習を組み合わせた最初の実証である。
論文 参考訳(メタデータ) (2026-02-10T09:28:20Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Reinforcement Learning with Verifiable Rewards: GRPO's Effective Loss, Dynamics, and Success Amplification [10.617854230082896]
グループ相対政策最適化は、検証可能な(バイナリ)報酬の下でLLMの推論を促進するために最近導入された。
我々は、報酬正規化(平均のみ対平均+分散)とKL分散を用いた更新の正則化の仕方が異なる変種を解析する。
論文 参考訳(メタデータ) (2025-03-09T14:36:45Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。