論文の概要: Segmenting Action-Value Functions Over Time-Scales in SARSA via TD($Δ$)
- arxiv url: http://arxiv.org/abs/2411.14783v2
- Date: Sat, 04 Jan 2025 03:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:02:38.434119
- Title: Segmenting Action-Value Functions Over Time-Scales in SARSA via TD($Δ$)
- Title(参考訳): TD($Δ$)によるSARSAの時間スケール上のアクション値関数のセグメンテーション
- Authors: Mahammad Humayoo,
- Abstract要約: 本研究では,時間差分分解法であるTD($Delta$)をSARSAアルゴリズムに拡張する。
TD($Delta$)は、アクション値関数を異なる割引係数に関連するコンポーネントに分解することで、いくつかの時間スケールでの学習を容易にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In numerous episodic reinforcement learning (RL) settings, SARSA-based methodologies are employed to enhance policies aimed at maximizing returns over long horizons. Conventional SARSA algorithms, however, have difficulties in balancing bias and variation due to the reliance on a singular, fixed discount factor. This study expands the temporal difference decomposition approach, TD($\Delta$), to the SARSA algorithm, which we designate as SARSA($\Delta$). SARSA, a widely utilised on-policy RL method, enhances action-value functions via temporal difference updates. TD($\Delta$) facilitates learning over several time-scales by breaking the action-value function into components associated with distinct discount factors. This decomposition improves learning efficiency and stability, particularly in problems necessitating long-horizon optimization. We illustrate that our methodology mitigates bias in SARSA's updates while facilitating accelerated convergence in both deterministic and stochastic environments. Experimental findings across many benchmark tasks indicate that the proposed SARSA($\Delta$) surpasses conventional TD learning methods in both tabular and deep RL environments.
- Abstract(参考訳): 多くのエピソディック強化学習(RL)環境では、長い地平線上でのリターンの最大化を目的としたポリシーを強化するために、SARSAベースの方法論が採用されている。
しかし、従来のSARSAアルゴリズムは、特定の固定割引係数に依存するため、バイアスと変動のバランスが難しい。
本研究では、時間差分分解手法TD($\Delta$)をSARSAアルゴリズムに拡張し、SARSA($\Delta$)と指定する。
SARSAは, 時間差分更新による行動値関数の強化を行う。
TD($\Delta$)は、アクション値関数を異なる割引係数に関連するコンポーネントに分解することで、いくつかの時間スケールでの学習を容易にする。
この分解により学習効率と安定性が向上し、特に長期の最適化を必要とする問題において改善される。
本手法は,SARSAの更新におけるバイアスを軽減するとともに,決定論的・確率的両環境における収束の促進を促すものである。
実験結果から,SARSA($\Delta$)は表層および深部RL環境において従来のTD学習手法を超越していることがわかった。
関連論文リスト
- Time-Scale Separation in Q-Learning: Extending TD($\triangle$) for Action-Value Function Decomposition [0.0]
本稿では,Q-Learningフレームワーク用のTD($Delta$)の拡張であるQ($Delta$)-Learningを紹介する。
TD($Delta$)は、Q($Delta$)-函数を異なる割引因子に分解することで、複数の時間スケールでの効率的な学習を容易にする。
本稿では,従来のQ-LearningおよびTD学習手法よりもQ($Delta$)-Learningの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-21T11:03:07Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning [18.318758111829386]
非パラメトリックなインスタンス識別に基づく効率的なシングルブランチSSL手法を提案する。
また,確率分布と正方形根版とのKL分散を最小限に抑える新しい自己蒸留損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T06:39:04Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Temperature Schedules for Self-Supervised Contrastive Methods on
Long-Tail Data [87.77128754860983]
本稿では,ロングテールデータ上での自己教師付き学習(SSL)の行動分析を行う。
大きな$tau$はグループ的な差別を強調するのに対し、小さな$tau$はより高いインスタンスの差別をもたらす。
動的$tau$を用いて、簡単なコサインスケジュールが学習表現に大きな改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-23T20:37:25Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - The Effect of Multi-step Methods on Overestimation in Deep Reinforcement
Learning [6.181642248900806]
強化学習における多段階法(n段階法)は1段階法よりも効率的であることが示されている。
MDDPG と MMDDPG の両者は 1 段階バックアップによる DDPG よりも過大評価問題の影響が著しく小さいことを示す。
また、近似誤差を低減するために、多段階展開を行う様々な方法の利点と欠点についても論じる。
論文 参考訳(メタデータ) (2020-06-23T01:35:54Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。