論文の概要: Delightful Distributed Policy Gradient
- arxiv url: http://arxiv.org/abs/2603.20521v1
- Date: Fri, 20 Mar 2026 21:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.949921
- Title: Delightful Distributed Policy Gradient
- Title(参考訳): 楽しい分散ポリシーのグラディエント
- Authors: Ian Osband,
- Abstract要約: 分散強化学習は、古い、バギー、またはミスマッチしたアクターのデータに基づいて訓練する。
高次障害が更新方向を支配できるが、有用な信号はほとんど持たない。
高いサプライズの成功は、現在の政策が見逃す機会を明らかにします。
正確な重要性のサンプリングを含むサイン-ブラインド再重み付けは、この効果を再現できない。
- 参考スコア(独自算出の注目度): 1.1886634182318419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed reinforcement learning trains on data from stale, buggy, or mismatched actors, producing actions with high surprisal (negative log-probability) under the learner's policy. The core difficulty is not surprising data per se, but \emph{negative learning from surprising data}. High-surprisal failures can dominate the update direction despite carrying little useful signal, while high-surprisal successes reveal opportunities the current policy would otherwise miss. The \textit{Delightful Policy Gradient} (DG) separates these cases by gating each update with delight, the product of advantage and surprisal, suppressing rare failures and amplifying rare successes without behavior probabilities. Under contaminated sampling, the cosine similarity between the standard policy gradient and the true gradient collapses, while DG's grows as the policy improves. No sign-blind reweighting, including exact importance sampling, can reproduce this effect. On MNIST with simulated staleness, DG without off-policy correction outperforms importance-weighted PG with exact behavior probabilities. On a transformer sequence task with staleness, actor bugs, reward corruption, and rare discovery, DG achieves roughly $10{\times}$ lower error. When all four frictions act simultaneously, its compute advantage is order-of-magnitude and grows with task complexity.
- Abstract(参考訳): 分散強化学習は、古い、バギー、またはミスマッチしたアクターからのデータに基づいて訓練し、学習者の方針の下で高い確率(負の対数確率)で行動を起こす。
コアの難しさは、それ自体が驚くべきデータではなく、驚くべきデータから‘emph{負の学習’である。
高いサプライズ障害は、有用なシグナルをほとんど持っていないにもかかわらず更新方向を支配できる一方で、高いサプライズ成功は、現在のポリシーが見逃す機会を明らかにします。
textit{Delightful Policy Gradient} (DG) は、これらのケースを、それぞれの更新を、利点と前提の産物である喜びでゲーティングすることで分離し、稀な失敗を抑え、行動確率のない稀な成功を増幅する。
汚染サンプリングの下では、標準方針勾配と真の勾配とのコサイン類似性は崩壊し、DGは政策が改善するにつれて増大する。
正確な重要性のサンプリングを含むサイン-ブラインド再重み付けは、この効果を再現できない。
安定度を模擬したMNISTでは、非政治的修正のないDGは、正確な行動確率で重み付けされたPGよりも優れていた。
安定度、アクターバグ、報酬の腐敗、希少な発見を伴うトランスフォーマーシーケンスタスクでは、DGはおよそ10ドル{\times}$低いエラーを達成する。
4つの摩擦が同時に作用すると、その計算上の優位性はマグニチュード・オブ・マグニチュードであり、タスクの複雑さとともに増大する。
関連論文リスト
- Delightful Policy Gradient [1.1886634182318419]
標準政策は、その行動が現在の政策の下にある可能性に関係なく、各アクションを単独でサンプリングした。
textitDelightful Policy Gradient (DG)を導入し、Emphdelightのシグミド、利点の産物、およびアクション・サプライサル(負の対数確率)を各項にゲートする。
$Kの武器を持つ包帯の場合、DGは単一のコンテキストにおける方向精度を確実に改善し、複数のコンテキストにわたって、期待される勾配を教師付きクロスエントロピーオラクルに近づける。
論文 参考訳(メタデータ) (2026-03-15T21:06:37Z) - From $\boldsymbol{\logπ}$ to $\boldsymbolπ$: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight [6.07556923512707]
Reinforcement Learning with Verifiable Rewards (RLVR)は、Large Language Model (LLM)推論の飛躍を触媒しているが、その最適化のダイナミクスは脆弱である。
GRPOのような標準的なアルゴリズムはハードクリッピングを通じて安定性を強制する。
本稿では,重要サンプリング比に基づくデカップリング崩壊機構を用いたデカップリング・グラディエント・ポリシー・最適化(DGPO)を提案する。
論文 参考訳(メタデータ) (2026-03-15T14:00:48Z) - Typicalness-Aware Learning for Failure Detection [26.23185979968123]
ディープニューラルネットワーク(DNN)は、しばしば自信過剰な問題に悩まされる。
そこで本研究では,本問題に対処し,故障検出性能を向上させるために,S typicalness-Aware Learning (TAL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T11:09:47Z) - Beyond Myopia: Learning from Positive and Unlabeled Data through
Holistic Predictive Trends [26.79150786180822]
我々は、PULで興味深いが、長い間見過ごされてきた観察を公表する。
ポジティブクラスとネガティブクラスの予測傾向は、明らかに異なるパターンを示す。
本稿では,TPPにインスパイアされた新しいトレンド検出尺度を提案し,変化予測における不偏性を証明する。
論文 参考訳(メタデータ) (2023-10-06T08:06:15Z) - Unleashing the Power of Graph Data Augmentation on Covariate
Distribution Shift [50.98086766507025]
本稿では,AIA(Adversarial Invariant Augmentation)という,シンプルで効率の良いデータ拡張戦略を提案する。
AIAは、拡張プロセス中に元の安定した特徴を同時に保存しながら、新しい環境をエクスポーレーションし、生成することを目的としている。
論文 参考訳(メタデータ) (2022-11-05T07:55:55Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。