論文の概要: On solutions of the distributional Bellman equation
- arxiv url: http://arxiv.org/abs/2202.00081v3
- Date: Fri, 26 May 2023 11:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 00:37:38.680647
- Title: On solutions of the distributional Bellman equation
- Title(参考訳): 分布ベルマン方程式の解について
- Authors: Julian Gerstenberg, Ralph Neininger, Denis Spiegel
- Abstract要約: 一般分布ベルマン方程式とそれらの解の存在と特異性、および戻り分布のテール特性について考察する。
分布型ベルマン方程式の任意の解は、多変量アフィン分布方程式に対する解の辺法則のベクトルとして得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In distributional reinforcement learning not only expected returns but the
complete return distributions of a policy are taken into account. The return
distribution for a fixed policy is given as the solution of an associated
distributional Bellman equation. In this note we consider general
distributional Bellman equations and study existence and uniqueness of their
solutions as well as tail properties of return distributions. We give necessary
and sufficient conditions for existence and uniqueness of return distributions
and identify cases of regular variation. We link distributional Bellman
equations to multivariate affine distributional equations. We show that any
solution of a distributional Bellman equation can be obtained as the vector of
marginal laws of a solution to a multivariate affine distributional equation.
This makes the general theory of such equations applicable to the
distributional reinforcement learning setting.
- Abstract(参考訳): 分布強化学習では、期待されたリターンだけでなく、政策の完全なリターン分布も考慮される。
固定ポリシの戻り分布は、関連する分布ベルマン方程式の解として与えられる。
本稿では,一般分布ベルマン方程式を考察し,それらの解の存在と一意性および帰納分布のテール特性について考察する。
我々は、戻り分布の存在と特異性について必要かつ十分な条件を与え、正規変動の場合を特定する。
分布ベルマン方程式と多変量アフィン分布方程式をリンクする。
分布型ベルマン方程式の任意の解は、多変量アフィン分布方程式に対する解の辺法則のベクトルとして得られることを示す。
これにより、そのような方程式の一般理論は分布強化学習設定に適用できる。
関連論文リスト
- Generalizing to any diverse distribution: uniformity, gentle finetuning and rebalancing [55.791818510796645]
我々は,訓練データから大きく逸脱した場合でも,様々なテスト分布によく適応するモデルを開発することを目的としている。
ドメイン適応、ドメイン一般化、ロバスト最適化といった様々なアプローチは、アウト・オブ・ディストリビューションの課題に対処しようと試みている。
我々は、既知のドメイン内の十分に多様なテスト分布にまたがる最悪のケースエラーを考慮することで、より保守的な視点を採用する。
論文 参考訳(メタデータ) (2024-10-08T12:26:48Z) - LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning [1.5734309088976395]
本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。
本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
論文 参考訳(メタデータ) (2023-07-05T15:00:29Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Domain Generalization by Functional Regression [3.209698860006188]
本稿では,機能回帰問題としての領域一般化について考察する。
我々の概念は、入力の辺分布から入力の対応する条件分布への線形演算子を学習するための新しいアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2023-02-09T16:07:21Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - Wrapped Distributions on homogeneous Riemannian manifolds [58.720142291102135]
パラメータ、対称性、モダリティなどの分布の性質の制御は、フレキシブルな分布の族を生み出す。
変動型オートエンコーダと潜在空間ネットワークモデル内で提案した分布を利用して,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2022-04-20T21:25:21Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Exploring Maximum Entropy Distributions with Evolutionary Algorithms [0.0]
与えられた制約集合に対する最大エントロピー確率分布を数値的に発展させる方法を示す。
進化的アルゴリズムは、よく知られた分析結果の近似を得ることができる。
分布の多くが対称で連続である理由を説明するが、いくつかはそうではない。
論文 参考訳(メタデータ) (2020-02-05T19:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。