論文の概要: ES-C51: Expected Sarsa Based C51 Distributional Reinforcement Learning Algorithm
- arxiv url: http://arxiv.org/abs/2510.15006v1
- Date: Thu, 16 Oct 2025 06:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.313684
- Title: ES-C51: Expected Sarsa Based C51 Distributional Reinforcement Learning Algorithm
- Title(参考訳): ES-C51:SarsaをベースとしたC51分散強化学習アルゴリズム
- Authors: Rijul Tandon, Peter Vamplew, Cameron Foale,
- Abstract要約: 本研究は,Greedy Q-learning UpdateをSarsa Updateに置き換えたC51(ES-C51)の修正版を提案する。
これにより、アクションが同じような期待された報酬を持つ場合の不安定さを低減し、エージェントはより高いパフォーマンスのポリシーを学ぶことができる。
このアプローチは、GymやAtari-10ゲームからの古典的な制御環境において評価される。
- 参考スコア(独自算出の注目度): 2.653235079219849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In most value-based reinforcement learning (RL) algorithms, the agent estimates only the expected reward for each action and selects the action with the highest reward. In contrast, Distributional Reinforcement Learning (DRL) estimates the entire probability distribution of possible rewards, providing richer information about uncertainty and variability. C51 is a popular DRL algorithm for discrete action spaces. It uses a Q-learning approach, where the distribution is learned using a greedy Bellman update. However, this can cause problems if multiple actions at a state have similar expected reward but with different distributions, as the algorithm may not learn a stable distribution. This study presents a modified version of C51 (ES-C51) that replaces the greedy Q-learning update with an Expected Sarsa update, which uses a softmax calculation to combine information from all possible actions at a state rather than relying on a single best action. This reduces instability when actions have similar expected rewards and allows the agent to learn higher-performing policies. This approach is evaluated on classic control environments from Gym, and Atari-10 games. For a fair comparison, we modify the standard C51's exploration strategy from e-greedy to softmax, which we refer to as QL-C51 (Q- Learning based C51). The results demonstrate that ES-C51 outperforms QL-C51 across many environments.
- Abstract(参考訳): ほとんどの値ベース強化学習(RL)アルゴリズムでは、エージェントは各アクションに対して期待される報酬のみを推定し、最も高い報酬でアクションを選択する。
対照的に、分散強化学習(DRL)は、可能な報酬の確率分布全体を推定し、不確実性と変動性に関するより豊かな情報を提供する。
C51は離散的な行動空間のための一般的なDRLアルゴリズムである。
これはQ-learningアプローチを使用し、greedy Bellmanアップデートを使用して分布を学習する。
しかし、このアルゴリズムは安定した分布を学習しないため、状態における複数のアクションが同様の期待された報酬を持つが、異なる分布を持つ場合、この問題を引き起こす可能性がある。
本研究は,C51 (ES-C51) の修正版を示し,この改良版は,期待されたSarsa更新に置き換えるものである。
これにより、アクションが同じような期待された報酬を持つ場合の不安定さを低減し、エージェントはより高いパフォーマンスのポリシーを学ぶことができる。
このアプローチは、GymやAtari-10ゲームからの古典的な制御環境において評価される。
公正な比較のために、標準のC51の探索戦略をe-greedyからSoftmaxに変更し、QL-C51(Q- Learning based C51)と呼ぶ。
その結果、ES-C51は多くの環境においてQL-C51を上回っていることが示された。
関連論文リスト
- Provably Efficient and Agile Randomized Q-Learning [35.14581235983678]
我々は、サンプリングベースの探索をアジャイル、ステップワイド、ポリシー更新と統合した新しいQ-ラーニングアルゴリズムをRandomizedQと呼ぶ。
経験的に、RandomizedQは、ボーナスベースとベイズベースで標準ベンチマークを探索する既存のQラーニングモデルと比較して、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-06-30T16:08:29Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Normality-Guided Distributional Reinforcement Learning for Continuous Control [13.818149654692863]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正常に近いことを実証的に確認した。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Revisiting Gaussian mixture critics in off-policy reinforcement
learning: a sample-based approach [28.199348547856175]
本稿では、政策が達成できる最小限の知識と価値に関する事前知識の要求を除去する自然な代替案を再考する。
さまざまな課題に対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-04-21T16:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。