論文の概要: Time-Scale Separation in Q-Learning: Extending TD($\triangle$) for Action-Value Function Decomposition
- arxiv url: http://arxiv.org/abs/2411.14019v1
- Date: Thu, 21 Nov 2024 11:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:32.925449
- Title: Time-Scale Separation in Q-Learning: Extending TD($\triangle$) for Action-Value Function Decomposition
- Title(参考訳): Q-Learningにおける時間スケール分離:アクション値関数分解のためのTD($\triangle$)の拡張
- Authors: Mahammad Humayoo,
- Abstract要約: 本稿では,Q-Learningフレームワーク用のTD($Delta$)の拡張であるQ($Delta$)-Learningを紹介する。
TD($Delta$)は、Q($Delta$)-函数を異なる割引因子に分解することで、複数の時間スケールでの効率的な学習を容易にする。
本稿では,従来のQ-LearningおよびTD学習手法よりもQ($Delta$)-Learningの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Q-Learning is a fundamental off-policy reinforcement learning (RL) algorithm that has the objective of approximating action-value functions in order to learn optimal policies. Nonetheless, it has difficulties in reconciling bias with variance, particularly in the context of long-term rewards. This paper introduces Q($\Delta$)-Learning, an extension of TD($\Delta$) for the Q-Learning framework. TD($\Delta$) facilitates efficient learning over several time scales by breaking the Q($\Delta$)-function into distinct discount factors. This approach offers improved learning stability and scalability, especially for long-term tasks where discounting bias may impede convergence. Our methodology guarantees that each element of the Q($\Delta$)-function is acquired individually, facilitating expedited convergence on shorter time scales and enhancing the learning of extended time scales. We demonstrate through theoretical analysis and practical evaluations on standard benchmarks like Atari that Q($\Delta$)-Learning surpasses conventional Q-Learning and TD learning methods in both tabular and deep RL environments.
- Abstract(参考訳): Q-Learning(Q-Learning)は、アクション値関数を近似して最適なポリシーを学習する基礎的な非政治強化学習(RL)アルゴリズムである。
それでも、特に長期報酬の文脈において、バイアスと分散を一致させることは困難である。
本稿では,Q-Learningフレームワーク用のTD($\Delta$)の拡張であるQ($\Delta$)-Learningを紹介する。
TD($\Delta$)は、Q($\Delta$)-函数を異なる割引因子に分解することで、複数の時間スケールでの効率的な学習を容易にする。
このアプローチは、特に割引バイアスが収束を妨げる可能性のある長期的なタスクにおいて、学習の安定性とスケーラビリティを改善します。
提案手法は,Q($\Delta$)関数の各要素を個別に取得することを保証する。
本稿では,従来のQ-LearningおよびTD学習手法を表層および深部RL環境において超越したQ($\Delta$)学習を,Atariなどの標準ベンチマークで理論的解析および実践的評価を行った。
関連論文リスト
- Segmenting Action-Value Functions Over Time-Scales in SARSA using TD($Δ$) [0.0]
本研究では,時間差分分解法であるTD($triangle$)をSARSAアルゴリズムに拡張する。
TD($triangle$)は、アクション値関数を異なる割引係数に関連するコンポーネントに分解することで、いくつかの時間スケールでの学習を容易にする。
本手法は,SARSAの更新におけるバイアスを軽減するとともに,高密度報酬を特徴とする文脈における収束を促進させる。
論文 参考訳(メタデータ) (2024-11-22T07:52:28Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning [33.28797183140384]
時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。
ラムダ$-returnターゲットの計算モデルからトランジションの予測確率を利用するチャンク付きTDを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:49:29Z) - Prediction and Control in Continual Reinforcement Learning [39.30411018922005]
時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の見積を更新するためにしばしば使用される。
本稿では,値関数を異なる時間スケールで更新する2つのコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-12-18T19:23:42Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Discerning Temporal Difference Learning [5.439020425819001]
時間差分学習(TD)は強化学習の基礎概念である
我々は、識別型TD学習(DTD)と呼ばれる新しいTDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:10Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。