論文の概要: Distributional Bellman Operators over Mean Embeddings
- arxiv url: http://arxiv.org/abs/2312.07358v3
- Date: Mon, 4 Mar 2024 16:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 22:04:03.760656
- Title: Distributional Bellman Operators over Mean Embeddings
- Title(参考訳): 平均埋め込み上の分布ベルマン演算子
- Authors: Li Kevin Wenliang, Gr\'egoire Del\'etang, Matthew Aitchison, Marcus
Hutter, Anian Ruoss, Arthur Gretton, Mark Rowland
- Abstract要約: 本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
- 参考スコア(独自算出の注目度): 37.5480897544168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel algorithmic framework for distributional reinforcement
learning, based on learning finite-dimensional mean embeddings of return
distributions. We derive several new algorithms for dynamic programming and
temporal-difference learning based on this framework, provide asymptotic
convergence theory, and examine the empirical performance of the algorithms on
a suite of tabular tasks. Further, we show that this approach can be
straightforwardly combined with deep reinforcement learning, and obtain a new
deep RL agent that improves over baseline distributional approaches on the
Arcade Learning Environment.
- Abstract(参考訳): 本稿では,回帰分布の有限次元平均埋め込み学習に基づく分布強化学習のための新しいアルゴリズムフレームワークを提案する。
この枠組みに基づく動的プログラミングと時間微分学習のためのいくつかの新しいアルゴリズムを導出し、漸近収束理論を提供し、一連の表状タスクにおけるアルゴリズムの経験的性能を検証した。
さらに,本手法を深層強化学習と容易に組み合わせることができることを示し,アーケード学習環境におけるベースライン分散アプローチよりも優れた新しい深層rlエージェントを得る。
関連論文リスト
- GRAWA: Gradient-based Weighted Averaging for Distributed Training of
Deep Learning Models [9.377424534371727]
時間制約環境における深層モデルの分散トレーニングについて検討する。
本稿では,労働者の平均値として計算された中心変数に対して,労働者を定期的に引き出すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T04:22:34Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Towards a Systematic Approach to Design New Ensemble Learning Algorithms [0.0]
本研究は,アンサンブルの誤り分解に関する基礎研究を再考する。
最近の進歩は「多様性の統一理論」を導入した
本研究は,新たなアンサンブル学習アルゴリズムの創出を導くために,この分解の応用を体系的に検討する。
論文 参考訳(メタデータ) (2024-02-09T22:59:20Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Reinforcement Learning as Iterative and Amortised Inference [62.997667081978825]
我々は、この制御を推論フレームワークとして使用し、償却および反復推論に基づく新しい分類スキームを概説する。
この観点から、比較的探索されていないアルゴリズム設計空間の一部を特定できることを示す。
論文 参考訳(メタデータ) (2020-06-13T16:10:03Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Inferential Induction: A Novel Framework for Bayesian Reinforcement
Learning [6.16852156844376]
本稿では,データから値関数分布を正確に推定する新しいフレームワークInferential Injectionについて述べる。
本研究では,提案アルゴリズムが技術状況に対して競争力があることを実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T06:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。