論文の概要: Optimizing Return Distributions with Distributional Dynamic Programming
- arxiv url: http://arxiv.org/abs/2501.13028v1
- Date: Wed, 22 Jan 2025 17:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:02.563098
- Title: Optimizing Return Distributions with Distributional Dynamic Programming
- Title(参考訳): 分散動的計画法による回帰分布の最適化
- Authors: Bernardo Ávila Pires, Mark Rowland, Diana Borsa, Zhaohan Daniel Guo, Khimya Khetarpal, André Barreto, David Abel, Rémi Munos, Will Dabney,
- Abstract要約: 本稿では,回帰分布の統計関数を最適化するための分散動的プログラミング(DP)手法を提案する。
従来のDPでは,リスクに敏感なRLの文脈で導入されていた手法である,分散DPとストック増強を併用する。
本稿では, 分散DP を用いて, 在庫増分分布最適化問題の解法について概説する。
- 参考スコア(独自算出の注目度): 38.11199286025947
- License:
- Abstract: We introduce distributional dynamic programming (DP) methods for optimizing statistical functionals of the return distribution, with standard reinforcement learning as a special case. Previous distributional DP methods could optimize the same class of expected utilities as classic DP. To go beyond expected utilities, we combine distributional DP with stock augmentation, a technique previously introduced for classic DP in the context of risk-sensitive RL, where the MDP state is augmented with a statistic of the rewards obtained so far (since the first time step). We find that a number of recently studied problems can be formulated as stock-augmented return distribution optimization, and we show that we can use distributional DP to solve them. We analyze distributional value and policy iteration, with bounds and a study of what objectives these distributional DP methods can or cannot optimize. We describe a number of applications outlining how to use distributional DP to solve different stock-augmented return distribution optimization problems, for example maximizing conditional value-at-risk, and homeostatic regulation. To highlight the practical potential of stock-augmented return distribution optimization and distributional DP, we combine the core ideas of distributional value iteration with the deep RL agent DQN, and empirically evaluate it for solving instances of the applications discussed.
- Abstract(参考訳): 本稿では,回帰分布の統計関数を最適化するための分散動的プログラミング(DP)手法について紹介する。
従来の分散DP手法は、従来のDPと同じ種類の期待ユーティリティを最適化することができた。
提案手法は,これまで得られた報酬の統計値を用いてMDP状態が拡張されるリスク感受性RLの文脈で,従来のDPに導入された手法であるストック増分と組み合わせたものである(第1段階以降)。
我々は,近年研究されている多くの問題をストック増分された回帰分布最適化として定式化できることを見いだし,その解法として分布DPを用いることができることを示した。
分布値とポリシの反復を境界値で解析し、これらの分散DP手法が最適化できるか、できないかについて検討する。
本稿では、分散DPを用いて、例えば条件付き値-リスクの最大化やホメオスタティックな規制など、様々なストック強化された戻り値分布最適化問題の解法について概説する。
ストック強化された回帰分布最適化と分散DPの実用可能性を強調するため、分散値反復のコアアイデアと深層RLエージェントDQNを組み合わせ、議論されたアプリケーションのインスタンスを解くためにそれを実証的に評価する。
関連論文リスト
- Borrowing Strength in Distributionally Robust Optimization via Hierarchical Dirichlet Processes [35.53901341372684]
提案手法は正規化推定,分布的ロバストな最適化,階層ベイズモデリングを統一する。
階層的ディリクレプロセス(HDP)を用いることで、マルチソースデータを効果的に処理する。
数値実験により,予測精度とパラメータ推定精度の両方の改善と安定化におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2024-05-21T19:03:09Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Robustness and risk management via distributional dynamic programming [13.173307471333619]
我々は,政策評価のための実用的なDPアルゴリズムとともに,分散演算子の新しいクラスを導入する。
我々の手法は、各状態が最悪の部分状態と最良の部分状態に分割される拡張状態空間を通して再構成される。
我々は、分散演算子とDPアルゴリズムを導出し、新しい制御課題を解決する。
論文 参考訳(メタデータ) (2021-12-28T12:12:57Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Likelihood-Free Inference with Deep Gaussian Processes [70.74203794847344]
サーロゲートモデルは、シミュレータ評価の回数を減らすために、可能性のない推論に成功している。
本稿では,より不規則な対象分布を扱えるディープガウス過程(DGP)サロゲートモデルを提案する。
本実験は,DGPがマルチモーダル分布を持つ目的関数上でGPよりも優れ,単調な場合と同等の性能を維持できることを示す。
論文 参考訳(メタデータ) (2020-06-18T14:24:05Z) - Sample-based Distributional Policy Gradient [14.498314462218394]
連続行動空間制御設定のためのサンプルベース分散ポリシー勾配(SDPG)アルゴリズムを提案する。
提案アルゴリズムは,多くのタスクに対して,より優れたサンプル効率と高い報酬を示す。
SDPGとD4PGを複数のOpenAI Gym環境に適用し、我々のアルゴリズムが多くのタスクに対してより優れたサンプル効率と高い報酬を示すことを観察する。
論文 参考訳(メタデータ) (2020-01-08T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。