論文の概要: A Differential Perspective on Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.03333v1
- Date: Tue, 03 Jun 2025 19:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.024124
- Title: A Differential Perspective on Distributional Reinforcement Learning
- Title(参考訳): 分散強化学習における異なる視点
- Authors: Juan Sebastian Rojas, Chi-Guhn Lee,
- Abstract要約: エージェントが時間段階当たりの報酬を最適化することを目的として,分布強化学習を平均逆設定に拡張する。
特に、Quantileベースのアプローチを用いて、ステップごとの報酬分布の長期学習および/または最適化を成功させるアルゴリズムの最初のセットを開発する。
- 参考スコア(独自算出の注目度): 7.028778922533688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To date, distributional reinforcement learning (distributional RL) methods have exclusively focused on the discounted setting, where an agent aims to optimize a potentially-discounted sum of rewards over time. In this work, we extend distributional RL to the average-reward setting, where an agent aims to optimize the reward received per time-step. In particular, we utilize a quantile-based approach to develop the first set of algorithms that can successfully learn and/or optimize the long-run per-step reward distribution, as well as the differential return distribution of an average-reward MDP. We derive proven-convergent tabular algorithms for both prediction and control, as well as a broader family of algorithms that have appealing scaling properties. Empirically, we find that these algorithms consistently yield competitive performance when compared to their non-distributional equivalents, while also capturing rich information about the long-run reward and return distributions.
- Abstract(参考訳): これまで、分散強化学習(distributional RL)手法は、エージェントが時間とともに計算される可能性のある報酬の総和を最適化することを目的とした割引設定にのみ焦点をあててきた。
本研究では,分布RLを平均逆設定に拡張し,エージェントは時間ステップ当たりの報酬を最適化する。
特に、量子化に基づく手法を用いて、平均回帰MDPの差分回帰分布と同様に、ステップごとの報酬分布の長期学習および/または最適化を成功させるアルゴリズムの開発を行う。
我々は、予測と制御の両方のための証明収束型表型アルゴリズムと、スケーリング特性をアピールするより広範なアルゴリズム群を導出する。
経験的に、これらのアルゴリズムは、非分配的等価性と比較して、競争性能が一貫して向上し、また、長期の報酬と返却分布に関する豊富な情報も取得できる。
関連論文リスト
- Optimizing Return Distributions with Distributional Dynamic Programming [38.11199286025947]
本稿では,回帰分布の統計関数を最適化するための分散動的プログラミング(DP)手法を提案する。
従来のDPでは,リスクに敏感なRLの文脈で導入されていた手法である,分散DPとストック増強を併用する。
本稿では, 分散DP を用いて, 在庫増分分布最適化問題の解法について概説する。
論文 参考訳(メタデータ) (2025-01-22T17:20:43Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? [10.149055921090572]
ニューラルネットワークZ-Iteration(Neural FZI)フレームワークにおける分布RLの最適化の利点について検討する。
その結果, 分布RLは良好な滑らかさ特性を有し, 安定な勾配を享受できることが示唆された。
本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
論文 参考訳(メタデータ) (2022-09-29T02:18:31Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - The Benefits of Being Categorical Distributional: Uncertainty-aware Regularized Exploration in Reinforcement Learning [17.64056793687686]
分布RLの潜在的優位性は、導出分布整合エントロピー正則化に起因すると考えられる。
本研究は,RLにおける分布学習の導入による本質的なメリットを説明するために,本研究から新たな視点を提供する。
論文 参考訳(メタデータ) (2021-10-07T03:14:46Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。