論文の概要: Segmenting Action-Value Functions Over Time-Scales in SARSA via TD($Δ$)
- arxiv url: http://arxiv.org/abs/2411.14783v3
- Date: Sat, 16 Aug 2025 10:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.71375
- Title: Segmenting Action-Value Functions Over Time-Scales in SARSA via TD($Δ$)
- Title(参考訳): TD($Δ$)によるSARSAの時間スケール上のアクション値関数のセグメンテーション
- Authors: Mahammad Humayoo,
- Abstract要約: 本研究は、現在SARSA($Delta$)と指定されているSARSAアルゴリズムに適用することにより、時間差分分解法であるTD($Delta$)を強化する。
アクション値関数を特定の割引要因に関連付けられたコンポーネントに分割することで、SARSA($Delta$)は、さまざまな時間スケールでの学習を容易にする。
本研究の結果から,提案手法は,SARSAの更新におけるバイアスの低減と,決定論的およびアタリ的設定における収束の高速化に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In numerous episodic reinforcement learning (RL) environments, SARSA-based methodologies are employed to enhance policies aimed at maximizing returns over long horizons. Traditional SARSA algorithms face challenges in achieving an optimal balance between bias and variation, primarily due to their dependence on a single, constant discount factor ($\eta$). This investigation enhances the temporal difference decomposition method, TD($\Delta$), by applying it to the SARSA algorithm, now designated as SARSA($\Delta$). SARSA is a widely used on-policy RL method that enhances action-value functions via temporal difference updates. By splitting the action-value function down into components that are linked to specific discount factors, SARSA($\Delta$) makes learning easier across a range of time scales. This analysis makes learning more effective and ensures consistency, particularly in situations where long-horizon improvement is needed. The results of this research show that the suggested strategy works to lower bias in SARSA's updates and speed up convergence in both deterministic and stochastic settings, even in dense reward Atari environments. Experimental results from a variety of benchmark settings show that the proposed SARSA($\Delta$) outperforms existing TD learning techniques in both tabular and deep RL environments.
- Abstract(参考訳): 多くのエピソディック強化学習(RL)環境では、長い地平線上でのリターンの最大化を目的としたポリシーを強化するために、SARSAベースの方法論が採用されている。
従来のSARSAアルゴリズムは、バイアスと変動の最適バランスを達成する上で、主に1つの定数割引係数($\eta$)に依存しているため、課題に直面している。
本研究は、現在SARSA($\Delta$)と指定されているSARSAアルゴリズムに適用することにより、時間差分分解法であるTD($\Delta$)を強化する。
SARSAは、時間差分更新によるアクション値関数の強化に広く用いられているオンラインRL法である。
アクション値関数を特定の割引要因に関連付けられたコンポーネントに分割することで、SARSA($\Delta$)は、さまざまな時間スケールでの学習を容易にする。
この分析は学習をより効果的にし、特に長期的改善が必要な状況において一貫性を確保する。
本研究の結果から, 厳密なアタリ環境においても, SARSAの更新のバイアスを低減し, 決定的および確率的設定の収束を早めることが示唆された。
SARSA($\Delta$)は,表層および深部RL環境において,既存のTD学習技術より優れていることを示す。
関連論文リスト
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Stabilizing Temporal Difference Learning via Implicit Stochastic Recursion [2.1301560294088318]
時間差学習は強化学習における基礎的アルゴリズムである
本稿では,TD更新を固定点方程式に変換する暗黙的TDアルゴリズムを提案する。
以上の結果から,暗黙的TDアルゴリズムはより広いステップサイズに適用可能であることが示された。
論文 参考訳(メタデータ) (2025-05-02T15:57:54Z) - Time-Scale Separation in Q-Learning: Extending TD($\triangle$) for Action-Value Function Decomposition [0.0]
本稿では,Q-Learningフレームワーク用のTD($Delta$)の拡張であるQ($Delta$)-Learningを紹介する。
TD($Delta$)は、Q($Delta$)-函数を異なる割引因子に分解することで、複数の時間スケールでの効率的な学習を容易にする。
本稿では,従来のQ-LearningおよびTD学習手法よりもQ($Delta$)-Learningの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-21T11:03:07Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning [18.318758111829386]
非パラメトリックなインスタンス識別に基づく効率的なシングルブランチSSL手法を提案する。
また,確率分布と正方形根版とのKL分散を最小限に抑える新しい自己蒸留損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T06:39:04Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Temperature Schedules for Self-Supervised Contrastive Methods on
Long-Tail Data [87.77128754860983]
本稿では,ロングテールデータ上での自己教師付き学習(SSL)の行動分析を行う。
大きな$tau$はグループ的な差別を強調するのに対し、小さな$tau$はより高いインスタンスの差別をもたらす。
動的$tau$を用いて、簡単なコサインスケジュールが学習表現に大きな改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-23T20:37:25Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Deep Reinforcement Learning using Cyclical Learning Rates [62.19441737665902]
勾配降下(SGD)に基づく最適化手順における最も影響力のあるパラメータの1つは、学習率である。
循環学習について検討し,様々なDRL問題に対する一般循環学習率の定義法を提案する。
本実験により, 循環学習は, 高度に調整された固定学習率よりも, 類似あるいは良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-31T10:06:02Z) - The Effect of Multi-step Methods on Overestimation in Deep Reinforcement
Learning [6.181642248900806]
強化学習における多段階法(n段階法)は1段階法よりも効率的であることが示されている。
MDDPG と MMDDPG の両者は 1 段階バックアップによる DDPG よりも過大評価問題の影響が著しく小さいことを示す。
また、近似誤差を低減するために、多段階展開を行う様々な方法の利点と欠点についても論じる。
論文 参考訳(メタデータ) (2020-06-23T01:35:54Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。