論文の概要: Off-policy Distributional Q($\lambda$): Distributional RL without
Importance Sampling
- arxiv url: http://arxiv.org/abs/2402.05766v1
- Date: Thu, 8 Feb 2024 15:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:29:55.188254
- Title: Off-policy Distributional Q($\lambda$): Distributional RL without
Importance Sampling
- Title(参考訳): Off-policy Distributional Q($\lambda$): 重要サンプリングなしの分散RL
- Authors: Yunhao Tang, Mark Rowland, R\'emi Munos, Bernardo \'Avila Pires, Will
Dabney
- Abstract要約: オフポリティ分布 Q($lambda$) は、オフポリティ学習に重要サンプリングを適用しない。
我々は,Q($lambda$)とC51エージェントの組み合わせである分散Q($lambda$)-C51が,深いRLベンチマークで有望な結果を示すことを示す。
- 参考スコア(独自算出の注目度): 30.978510706146135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce off-policy distributional Q($\lambda$), a new addition to the
family of off-policy distributional evaluation algorithms. Off-policy
distributional Q($\lambda$) does not apply importance sampling for off-policy
learning, which introduces intriguing interactions with signed measures. Such
unique properties distributional Q($\lambda$) from other existing alternatives
such as distributional Retrace. We characterize the algorithmic properties of
distributional Q($\lambda$) and validate theoretical insights with tabular
experiments. We show how distributional Q($\lambda$)-C51, a combination of
Q($\lambda$) with the C51 agent, exhibits promising results on deep RL
benchmarks.
- Abstract(参考訳): 我々は,オフ・ポリシー分布評価アルゴリズムのファミリに新たな付加であるオフ・ポリシー分布q($\lambda$)を導入する。
オフポリティ分布 Q($\lambda$) は、符号付き測度との興味深い相互作用をもたらす、オフポリティ学習に重要サンプリングを適用しない。
このような一意な性質の分布 Q($\lambda$) は、分布 Retrace のような既存の代替品から得られる。
分布 Q($\lambda$) のアルゴリズム特性を特徴付け、グラフ実験による理論的洞察を検証する。
我々は,Q($\lambda$)とC51エージェントの組み合わせである分散Q($\lambda$)-C51が,深いRLベンチマークで有望な結果を示すことを示す。
関連論文リスト
- SPQR: Controlling Q-ensemble Independence with Spiked Random Model for
Reinforcement Learning [4.671615537573023]
過大評価バイアスを軽減することは、深い強化学習にとって重要な課題である。
本稿では,強化学習のためのWishart Q-ensemble independent regularization (SPQR)を提案する。
我々は複数のオンラインおよびオフラインアンサンブルQ-ラーニングアルゴリズムにSPQRを実装している。
論文 参考訳(メタデータ) (2024-01-06T06:39:06Z) - Tackling Combinatorial Distribution Shift: A Matrix Completion
Perspective [42.85196869759168]
a) テストランダムデータおよびトレーニングランダムデータの下で、ラベル$z$は、(x,y)$, (b) トレーニングディストリビューションは、別々に$x$と$y$の限界分布をカバーしているが、(c) テストディストリビューションは、トレーニングディストリビューションがカバーしていない製品ディストリビューションの例を含む。
論文 参考訳(メタデータ) (2023-07-12T21:17:47Z) - Sample Complexity of Variance-reduced Distributionally Robust Q-learning [17.96094201655567]
本稿では,分散性に頑健なQ-ラーニングアルゴリズムと,分散性に欠けるロバストなポリシーを効果的に学習できる分散性のあるQ-ラーニングアルゴリズムを2つ提案する。
一連の数値実験により、分布シフトの処理におけるアルゴリズムの理論的発見と効率性が確認された。
論文 参考訳(メタデータ) (2023-05-28T19:40:46Z) - Ensemble Multi-Quantiles: Adaptively Flexible Distribution Prediction
for Uncertainty Quantification [4.728311759896569]
本稿では,機械学習における不確実性を定量化するために,分布予測の新しい,簡潔かつ効果的な手法を提案する。
これは回帰タスクにおいて$mathbbP(mathbfy|mathbfX=x)$の適応的に柔軟な分布予測を組み込む。
UCIデータセットからの大規模な回帰タスクでは、EMQが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-26T11:45:32Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Polyak-Ruppert Averaged Q-Leaning is Statistically Efficient [90.14768299744792]
我々はPolyak-Ruppert 平均 Q-leaning (平均 Q-leaning) を用いた同期 Q-learning を$gamma$-discounted MDP で検討した。
繰り返し平均$barboldsymbolQ_T$に対して正規性を確立する。
要するに、我々の理論分析は、Q-Leaningの平均は統計的に効率的であることを示している。
論文 参考訳(メタデータ) (2021-12-29T14:47:56Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。