論文の概要: An Analysis of Quantile Temporal-Difference Learning
- arxiv url: http://arxiv.org/abs/2301.04462v3
- Date: Mon, 20 May 2024 10:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 01:10:44.040920
- Title: An Analysis of Quantile Temporal-Difference Learning
- Title(参考訳): 量子時間差学習の解析
- Authors: Mark Rowland, Rémi Munos, Mohammad Gheshlaghi Azar, Yunhao Tang, Georg Ostrovski, Anna Harutyunyan, Karl Tuyls, Marc G. Bellemare, Will Dabney,
- Abstract要約: 量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
- 参考スコア(独自算出の注目度): 53.36758478669685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyse quantile temporal-difference learning (QTD), a distributional reinforcement learning algorithm that has proven to be a key component in several successful large-scale applications of reinforcement learning. Despite these empirical successes, a theoretical understanding of QTD has proven elusive until now. Unlike classical TD learning, which can be analysed with standard stochastic approximation tools, QTD updates do not approximate contraction mappings, are highly non-linear, and may have multiple fixed points. The core result of this paper is a proof of convergence to the fixed points of a related family of dynamic programming procedures with probability 1, putting QTD on firm theoretical footing. The proof establishes connections between QTD and non-linear differential inclusions through stochastic approximation theory and non-smooth analysis.
- Abstract(参考訳): 大規模強化学習の大規模応用において重要な要素であることが証明された分散強化学習アルゴリズムである量子時間差分学習(QTD)を解析する。
これらの経験的成功にもかかわらず、QTDに関する理論的理解はこれまでにも発覚的であることが証明されている。
標準的な確率近似ツールで解析できる古典的TD学習とは異なり、QTD更新は縮約写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本論文の中核的な結果は、確率 1 で関連する動的プログラミング手順のファミリーの固定点への収束の証明であり、QTD をしっかりとした理論的な足場に配置する。
この証明は、確率近似理論と非滑らか解析を通じて、QTDと非線形微分包含物の間の関係を確立する。
関連論文リスト
- Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Unified ODE Analysis of Smooth Q-Learning Algorithms [5.152147416671501]
近年,Q-ラーニングのためのコンバージェンス解析をスイッチングシステムフレームワークを用いて導入している。
スイッチングシステムアプローチを改善するために,より汎用的で統一的な収束解析を提案する。
論文 参考訳(メタデータ) (2024-04-20T01:16:27Z) - On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - Federated TD Learning over Finite-Rate Erasure Channels: Linear Speedup
under Markovian Sampling [17.870440210358847]
エージェントが中央アグリゲータを介して通信し、共通ポリシの評価を迅速化するフェデレートポリシ評価問題について検討する。
FLにおける典型的な通信制約を捉えるために、ベルヌーイ消去モデルに基づいてパケットをドロップできる有限容量アップリンクチャネルを考える。
本研究は, マルチエージェントおよびフェデレーション強化学習における非漸近的効果の分析を初めて行ったものである。
論文 参考訳(メタデータ) (2023-05-14T08:48:02Z) - Sufficient Exploration for Convex Q-learning [10.75319149461189]
本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する。
原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。
コンベックスQラーニングは,標準Qラーニングが分岐する場合に有効であることが示されている。
論文 参考訳(メタデータ) (2022-10-17T20:22:12Z) - Finite-Time Analysis of Asynchronous Q-learning under Diminishing
Step-Size from Control-Theoretic View [3.5823366350053325]
本稿ではマルコフ観測モデルに基づく非同期Q-ラーニングの新しい有限時間解析について検討する。
特に、ステップサイズを小さくしたQラーニングの離散時間時間変化切替システムモデルを提案する。
提案された分析は、さらなる洞察をもたらし、異なるシナリオをカバーし、分析のための新しい簡易テンプレートを提供する。
論文 参考訳(メタデータ) (2022-07-25T14:15:55Z) - Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time
Switching System Models [6.85316573653194]
一定のステップサイズを持つQ学習を離散時間切替線形系として自然に定式化できることを実証する。
主に制御フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。
論文 参考訳(メタデータ) (2021-02-17T05:32:07Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。