Fugu-MT 論文翻訳(概要): An Analysis of Quantile Temporal-Difference Learning

論文の概要: An Analysis of Quantile Temporal-Difference Learning

arxiv url: http://arxiv.org/abs/2301.04462v3
Date: Mon, 20 May 2024 10:03:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 01:10:44.040920
Title: An Analysis of Quantile Temporal-Difference Learning
Title（参考訳）: 量子時間差学習の解析
Authors: Mark Rowland, Rémi Munos, Mohammad Gheshlaghi Azar, Yunhao Tang, Georg Ostrovski, Anna Harutyunyan, Karl Tuyls, Marc G. Bellemare, Will Dabney,
Abstract要約: 量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
参考スコア（独自算出の注目度）: 53.36758478669685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We analyse quantile temporal-difference learning (QTD), a distributional reinforcement learning algorithm that has proven to be a key component in several successful large-scale applications of reinforcement learning. Despite these empirical successes, a theoretical understanding of QTD has proven elusive until now. Unlike classical TD learning, which can be analysed with standard stochastic approximation tools, QTD updates do not approximate contraction mappings, are highly non-linear, and may have multiple fixed points. The core result of this paper is a proof of convergence to the fixed points of a related family of dynamic programming procedures with probability 1, putting QTD on firm theoretical footing. The proof establishes connections between QTD and non-linear differential inclusions through stochastic approximation theory and non-smooth analysis.
Abstract（参考訳）: 大規模強化学習の大規模応用において重要な要素であることが証明された分散強化学習アルゴリズムである量子時間差分学習(QTD)を解析する。これらの経験的成功にもかかわらず、QTDに関する理論的理解はこれまでにも発覚的であることが証明されている。標準的な確率近似ツールで解析できる古典的TD学習とは異なり、QTD更新は縮約写像を近似せず、非常に非線形であり、複数の固定点を持つ。本論文の中核的な結果は、確率 1 で関連する動的プログラミング手順のファミリーの固定点への収束の証明であり、QTD をしっかりとした理論的な足場に配置する。この証明は、確率近似理論と非滑らか解析を通じて、QTDと非線形微分包含物の間の関係を確立する。

関連論文リスト

Conditional independence testing with a single realization of a multivariate nonstationary nonlinear time series [26.18999528465474]
非定常非線形過程を単一実現した条件独立試験のための最初のフレームワークを紹介する。主な技術要素は、時間変化の非線形回帰、時間変化の共分散推定、分布均一な強ガウス近似である。
論文参考訳（メタデータ） (2025-04-30T13:51:38Z)
Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
TD(0) Learning converges for Polynomial mixing and non-linear functions [49.1574468325115]
そこで本研究では,より適切な仮定の下でのTD学習に関する理論的知見について述べる。これは、普遍的および非独立なステップサイズの下でマルコフデータ上でのTD(0)収束の最初の証明である。我々の結果は、一般化勾配の下での線型モデルと非線形モデルの境界と、H"より古い連続性を含む。
論文参考訳（メタデータ） (2025-02-08T22:01:02Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
Unified ODE Analysis of Smooth Q-Learning Algorithms [5.152147416671501]
近年,Q-ラーニングのためのコンバージェンス解析をスイッチングシステムフレームワークを用いて導入している。スイッチングシステムアプローチを改善するために,より汎用的で統一的な収束解析を提案する。
論文参考訳（メタデータ） (2024-04-20T01:16:27Z)
On the Convergence and Sample Complexity Analysis of Deep Q-Networks with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文参考訳（メタデータ） (2023-10-24T20:37:02Z)
Federated TD Learning over Finite-Rate Erasure Channels: Linear Speedup under Markovian Sampling [17.870440210358847]
エージェントが中央アグリゲータを介して通信し、共通ポリシの評価を迅速化するフェデレートポリシ評価問題について検討する。 FLにおける典型的な通信制約を捉えるために、ベルヌーイ消去モデルに基づいてパケットをドロップできる有限容量アップリンクチャネルを考える。本研究は, マルチエージェントおよびフェデレーション強化学習における非漸近的効果の分析を初めて行ったものである。
論文参考訳（メタデータ） (2023-05-14T08:48:02Z)
Sufficient Exploration for Convex Q-learning [10.75319149461189]
本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する。原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。コンベックスQラーニングは,標準Qラーニングが分岐する場合に有効であることが示されている。
論文参考訳（メタデータ） (2022-10-17T20:22:12Z)
Finite-Time Analysis of Asynchronous Q-learning under Diminishing Step-Size from Control-Theoretic View [3.5823366350053325]
本稿ではマルコフ観測モデルに基づく非同期Q-ラーニングの新しい有限時間解析について検討する。特に、ステップサイズを小さくしたQラーニングの離散時間時間変化切替システムモデルを提案する。提案された分析は、さらなる洞察をもたらし、異なるシナリオをカバーし、分析のための新しい簡易テンプレートを提供する。
論文参考訳（メタデータ） (2022-07-25T14:15:55Z)
Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time Switching System Models [6.85316573653194]
一定のステップサイズを持つQ学習を離散時間切替線形系として自然に定式化できることを実証する。主に制御フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。
論文参考訳（メタデータ） (2021-02-17T05:32:07Z)
Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-09-29T18:48:21Z)
Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文参考訳（メタデータ） (2020-09-29T04:58:17Z)
Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文参考訳（メタデータ） (2020-06-12T00:32:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。