論文の概要: Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12184v1
- Date: Tue, 24 May 2022 16:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 13:52:51.415895
- Title: Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning
- Title(参考訳): 分布型ハミルトン・ヤコビ・ベルマン方程式による連続時間強化学習
- Authors: Harley Wiltzer and David Meger and Marc G. Bellemare
- Abstract要約: 本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 39.07307690074323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous-time reinforcement learning offers an appealing formalism for
describing control problems in which the passage of time is not naturally
divided into discrete increments. Here we consider the problem of predicting
the distribution of returns obtained by an agent interacting in a
continuous-time, stochastic environment. Accurate return predictions have
proven useful for determining optimal policies for risk-sensitive control,
learning state representations, multiagent coordination, and more. We begin by
establishing the distributional analogue of the Hamilton-Jacobi-Bellman (HJB)
equation for It\^o diffusions and the broader class of Feller-Dynkin processes.
We then specialize this equation to the setting in which the return
distribution is approximated by $N$ uniformly-weighted particles, a common
design choice in distributional algorithms. Our derivation highlights
additional terms due to statistical diffusivity which arise from the proper
handling of distributions in the continuous-time setting. Based on this, we
propose a tractable algorithm for approximately solving the distributional HJB
based on a JKO scheme, which can be implemented in an online control algorithm.
We demonstrate the effectiveness of such an algorithm in a synthetic control
problem.
- Abstract(参考訳): 連続時間強化学習は、時間経過が自然に離散的な増分に分割されない制御問題を記述するための魅力的な形式を提供する。
本稿では,連続した確率環境で相互作用するエージェントが得るリターン分布の予測の問題を考える。
正確な回帰予測は、リスク感受性制御、学習状態表現、マルチエージェント調整などの最適ポリシーを決定するのに有用であることが証明されている。
まずハミルトン・ヤコビ・ベルマン(hjb)方程式のit\^o拡散に対する分布的類似性とフェラー・ディンキン過程のより広いクラスを確立する。
次に、この方程式を、分布アルゴリズムにおける一般的な設計選択である、一様重み付き粒子が返却分布を近似する設定に専門化する。
私たちの導出は、連続時間設定における分布の適切な取り扱いから生じる統計的拡散性による追加項を強調している。
これに基づいて、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
合成制御問題において,そのようなアルゴリズムの有効性を示す。
関連論文リスト
- Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints [0.0]
本稿では,分散上信頼度境界(UCB)アルゴリズム,関連UCBを提案する。
提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。
合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。
論文 参考訳(メタデータ) (2024-01-21T18:43:55Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - Distributed Stochastic Bandit Learning with Context Distributions [0.0]
本研究では,未知のコンテキストを持つ分散マルチアームコンテキスト帯域幅の問題について検討する。
本モデルでは, エージェントはコンテキスト分布のみを観察し, エージェントに正確なコンテキストが不明である。
我々のゴールは、累積報酬を最大化するために最適な行動列を選択する分散アルゴリズムを開発することである。
論文 参考訳(メタデータ) (2022-07-28T22:00:11Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。