論文の概要: Interpolating Between Softmax Policy Gradient and Neural Replicator
Dynamics with Capped Implicit Exploration
- arxiv url: http://arxiv.org/abs/2206.02036v1
- Date: Sat, 4 Jun 2022 18:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 12:49:26.446356
- Title: Interpolating Between Softmax Policy Gradient and Neural Replicator
Dynamics with Capped Implicit Exploration
- Title(参考訳): capped implicit exploration を用いた softmax policy gradient とneural replicator dynamics の補間
- Authors: Dustin Morrill, Esra'a Saleh, Michael Bowling, Amy Greenwald
- Abstract要約: ニューラルレプリケータダイナミクス(NeuRD)は、オンライン学習と進化ゲーム理論によって動機付けられた基礎的ソフトマックスポリシー勾配(SPG)アルゴリズムの代替である。
我々はモンテカルロの更新が大きな違いがあることを示し、サンプリングされたアクションの重要度補正はSPGの更新では無効化されるが、NeuRDの更新では無効化されない。これは当然、NeuRDの更新がSPGの更新よりも高いばらつきをもたらす。
- 参考スコア(独自算出の注目度): 16.743982230397386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural replicator dynamics (NeuRD) is an alternative to the foundational
softmax policy gradient (SPG) algorithm motivated by online learning and
evolutionary game theory. The NeuRD expected update is designed to be nearly
identical to that of SPG, however, we show that the Monte Carlo updates differ
in a substantial way: the importance correction accounting for a sampled action
is nullified in the SPG update, but not in the NeuRD update. Naturally, this
causes the NeuRD update to have higher variance than its SPG counterpart.
Building on implicit exploration algorithms in the adversarial bandit setting,
we introduce capped implicit exploration (CIX) estimates that allow us to
construct NeuRD-CIX, which interpolates between this aspect of NeuRD and SPG.
We show how CIX estimates can be used in a black-box reduction to construct
bandit algorithms with regret bounds that hold with high probability and the
benefits this entails for NeuRD-CIX in sequential decision-making settings. Our
analysis reveals a bias--variance tradeoff between SPG and NeuRD, and shows how
theory predicts that NeuRD-CIX will perform well more consistently than NeuRD
while retaining NeuRD's advantages over SPG in non-stationary environments.
- Abstract(参考訳): ニューラルレプリケータダイナミクス(NeuRD)は、オンライン学習と進化ゲーム理論によって動機付けられた基礎的ソフトマックスポリシー勾配(SPG)アルゴリズムの代替である。
NeuRD の予測更新は SPG とほぼ同程度に設計されているが,モンテカルロ の更新は大きな違いがある。
当然、これによってNeuRDの更新はSPGよりも分散度が高い。
敵対的バンディット設定における暗黙的探索アルゴリズムに基づいて,capped implicit exploration (cix) 推定法を導入し,neurd-cix の構築を可能にし,neurd と spg のこの側面を補間する。
我々は,CIX推定をブラックボックス削減に利用して,高い確率で保留する残差を持つ帯域幅のアルゴリズムを構築する方法と,逐次決定設定におけるNeuRD-CIXにかかわる利点を示す。
解析の結果,NuRD-CIXは非定常環境下でのSPGに対するNeuRDの優位性を保ちながら,NeuRD-CIXがNeuRDよりも安定に動作すると予測されることを示す。
関連論文リスト
- Likelihood-Ratio Regularized Quantile Regression: Adapting Conformal Prediction to High-Dimensional Covariate Shifts [35.16750653336608]
ピンボール損失を正規化の新たな選択と組み合わせた正準比正則化量子回帰アルゴリズムを提案する。
LR-QR法は,対象領域の所望レベルにおいて,最小限の誤差項までカバレッジを有することを示す。
実験により、LR-QRアルゴリズムは、高次元予測タスクにおいて既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-02-18T16:46:44Z) - Improved Regret Analysis in Gaussian Process Bandits: Optimality for Noiseless Reward, RKHS norm, and Non-Stationary Variance [6.379833644595456]
我々は,未知の報酬関数の下で後悔を最小限に抑えることを目標とするガウス過程(GP)バンドイット問題について検討する。
本稿では,GPの雑音分散パラメータの依存性を改善するために,最大後方分散の新たな上限を示す。
MVR と PE に基づくアルゴリズムは雑音分散依存的後悔の上界を達成でき、これは我々の後悔の低い下界と一致する。
論文 参考訳(メタデータ) (2025-02-10T11:29:27Z) - Fast Stochastic Policy Gradient: Negative Momentum for Reinforcement Learning [10.865448640073911]
この研究は、運動量を利用する観点から、高速ポリシー勾配(SPG)アルゴリズムを開発する。
具体的には、SPG-NMにおいて、古典的なSPGアルゴリズムに新しいタイプの負運動量(NM)技術を適用する。
帯域設定とマルコフ決定過程(MDP)という2つの古典的課題における結果のアルゴリズムの評価を行う。
論文 参考訳(メタデータ) (2024-05-08T03:01:05Z) - Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees [63.18324983384337]
グラディエントブースト決定木(GBDT)のランク付け手法について紹介する。
我々の主な貢献は、二階微分、すなわちヘッセン行列に対する新しい推定器である。
推定器を既存のPL-Rankフレームワークに組み込む。
論文 参考訳(メタデータ) (2024-04-18T13:53:32Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Sparsely Changing Latent States for Prediction and Planning in Partially
Observable Domains [11.371889042789219]
GateL0RDは、安定した、わずかに変化する潜伏状態を維持するために誘導バイアスを組み込んだ、新しいリカレントアーキテクチャである。
GateL0RDは、様々な部分観測可能な予測および制御タスクにおいて、最先端のRNNと競合したり、性能を向上することができることを実証する。
論文 参考訳(メタデータ) (2021-10-29T17:50:44Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - Deep Neural Networks as Point Estimates for Deep Gaussian Processes [44.585609003513625]
本稿では,DGPの近似的な後進平均がディープニューラルネットワーク(DNN)と同じ数学的構造を持つスパース変分近似を提案する。
我々は、GP後方平均をReLU基底関数の和として表すドメイン間変換を求めることで、ReLU DNNと同等のDGPを前方通過させる。
実験は、現在のDGP法と比較して精度の向上とトレーニングの高速化を実証し、良好な予測不確実性を維持します。
論文 参考訳(メタデータ) (2021-05-10T16:55:17Z) - A Biased Graph Neural Network Sampler with Near-Optimal Regret [57.70126763759996]
グラフニューラルネットワーク(GNN)は、グラフおよびリレーショナルデータにディープネットワークアーキテクチャを適用する手段として登場した。
本論文では,既存の作業に基づいて,GNN近傍サンプリングをマルチアームバンディット問題として扱う。
そこで本研究では,分散を低減し,不安定かつ非限定的な支払いを回避すべく設計されたバイアスをある程度導入した報酬関数を提案する。
論文 参考訳(メタデータ) (2021-03-01T15:55:58Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。