Fugu-MT 論文翻訳(概要): How Does Value Distribution in Distributional Reinforcement Learning Help Optimization?

論文の概要: How Does Value Distribution in Distributional Reinforcement Learning Help Optimization?

arxiv url: http://arxiv.org/abs/2209.14513v1
Date: Thu, 29 Sep 2022 02:18:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 17:40:09.384027
Title: How Does Value Distribution in Distributional Reinforcement Learning Help Optimization?
Title（参考訳）: 分散強化学習における価値分布は最適化にどのように役立つか?
Authors: Ke Sun, Bei Jiang, Linglong Kong
Abstract要約: 分布強化学習(RL)におけるベルマン力学から確率分布の集合を学習する問題を考える。優れた性能を得ることに成功したにもかかわらず、分布RLの値分布がどのように機能するかはまだよく分かっていない。
参考スコア（独自算出の注目度）: 4.695760312524447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of learning a set of probability distributions from the Bellman dynamics in distributional reinforcement learning~(RL) that learns the whole return distribution compared with only its expectation in classical RL. Despite its success to obtain superior performance, we still have a poor understanding of how the value distribution in distributional RL works. In this study, we analyze the optimization benefits of distributional RL by leverage of additional value distribution information over classical RL in the Neural Fitted Z-Iteration~(Neural FZI) framework. To begin with, we demonstrate that the distribution loss of distributional RL has desirable smoothness characteristics and hence enjoys stable gradients, which is in line with its tendency to promote optimization stability. Furthermore, the acceleration effect of distributional RL is revealed by decomposing the return distribution. It turns out that distributional RL can perform favorably if the value distribution approximation is appropriate, measured by the variance of gradient estimates in each environment for any specific distributional RL algorithm. Rigorous experiments validate the stable optimization behaviors of distributional RL, contributing to its acceleration effects compared to classical RL. The findings of our research illuminate how the value distribution in distributional RL algorithms helps the optimization.
Abstract（参考訳）: 分布強化学習(rl)におけるベルマン力学から確率分布のセットを学習する問題を考える。優れた性能を得ることに成功したにもかかわらず、分布RLの値分布がどのように機能するかはまだよく分かっていない。本研究では、ニューラルネットワークZ-Iteration~(Neural FZI)フレームワークにおける古典的RL上の付加価値分布情報を活用することにより、分布RLの最適化の利点を分析する。まず, 分布RLの分布損失は, 良好な滑らかさ特性を持ち, 最適化安定性を促進する傾向にある安定勾配を享受できることを実証する。さらに、戻り分布を分解することにより、分布RLの加速効果を明らかにする。分布 rl は,特定の分布 rl アルゴリズムに対して,各環境における勾配推定のばらつきから求めた値分布近似が適切であれば好適に動作できることがわかった。厳密な実験は分布RLの安定な最適化挙動を検証し、古典的なRLと比較して加速効果に寄与する。本研究の成果は,分散RLアルゴリズムの値分布が最適化にどのように役立つかを示す。

関連論文リスト

A Differential Perspective on Distributional Reinforcement Learning [7.028778922533688]
エージェントが時間段階当たりの報酬を最適化することを目的として,分布強化学習を平均逆設定に拡張する。特に、Quantileベースのアプローチを用いて、ステップごとの報酬分布の長期学習および/または最適化を成功させるアルゴリズムの最初のセットを開発する。
論文参考訳（メタデータ） (2025-06-03T19:26:25Z)
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳（メタデータ） (2025-05-26T22:51:00Z)
The Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本稿では,不完全な情報形式ゲームにおいて,摂動がFTRL(Follow-the-Regularized-Leader)アルゴリズムをどのように改善するかを検討する。期待されるペイオフの摂動は、FTRL力学が近似平衡に達することを保証している。最後に、FTRLは非サンプリングFTRLよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-01-28T00:29:38Z)
Action Gaps and Advantages in Continuous-Time Distributional Reinforcement Learning [30.64409258999151]
行動条件付き回帰分布は、決定頻度が増加するにつれて、基本方針の戻り分布に崩壊することを示す。また、優位性の確率的一般化として優越性を導入する。オプショントレーディング領域におけるシミュレーションにより、優良性分布の適切なモデリングにより、高い決定周波数での制御性能が向上することが検証された。
論文参考訳（メタデータ） (2024-10-14T19:18:38Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文参考訳（メタデータ） (2024-02-11T13:25:53Z)
Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文参考訳（メタデータ） (2023-05-26T12:30:05Z)
One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-27T06:57:00Z)
Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。この分布は有限個の確率変数で近似できることを示す。近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-23T20:27:40Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
The Benefits of Being Categorical Distributional: Uncertainty-aware Regularized Exploration in Reinforcement Learning [18.525166928667876]
分布RLのポテンシャル優位性は、回帰密度関数分解法を適用して導出した分布整合正則化に帰着する。分布RLコンテキストにおけるこの探索されていない正規化は、期待によらず、追加の戻り分布情報を取得することを目的としている。実験は、古典的RLに対する経験的利益に対する分布RLにおけるこの不確実性を考慮した正規化の重要性を裏付ける。
論文参考訳（メタデータ） (2021-10-07T03:14:46Z)
Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。返品だ Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文参考訳（メタデータ） (2021-03-20T23:42:50Z)
Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文参考訳（メタデータ） (2021-03-08T18:06:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。