Fugu-MT 論文翻訳(概要): Asynchronous Stochastic Approximation and Average-Reward Reinforcement Learning

論文の概要: Asynchronous Stochastic Approximation and Average-Reward Reinforcement Learning

arxiv url: http://arxiv.org/abs/2409.03915v1
Date: Thu, 5 Sep 2024 21:23:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 17:20:24.143574
Title: Asynchronous Stochastic Approximation and Average-Reward Reinforcement Learning
Title（参考訳）: 非同期確率近似と平均回帰強化学習
Authors: Huizhen Yu, Yi Wan, Richard S. Sutton,
Abstract要約: 我々は、より一般的な雑音条件を満たすために、ボルカールとメインの安定性証明法を拡張した。我々は、Schweitzerの古典的相対値アルゴリズムRVI Q-learningの非同期SAアナログの収束を確立する。 RVIQ学習における最適報酬率を推定するための新しい単調性条件を導入する。
参考スコア（独自算出の注目度）: 11.868402302316131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies asynchronous stochastic approximation (SA) algorithms and their application to reinforcement learning in semi-Markov decision processes (SMDPs) with an average-reward criterion. We first extend Borkar and Meyn's stability proof method to accommodate more general noise conditions, leading to broader convergence guarantees for asynchronous SA algorithms. Leveraging these results, we establish the convergence of an asynchronous SA analogue of Schweitzer's classical relative value iteration algorithm, RVI Q-learning, for finite-space, weakly communicating SMDPs. Furthermore, to fully utilize the SA results in this application, we introduce new monotonicity conditions for estimating the optimal reward rate in RVI Q-learning. These conditions substantially expand the previously considered algorithmic framework, and we address them with novel proof arguments in the stability and convergence analysis of RVI Q-learning.
Abstract（参考訳）: 本稿では,非同期確率近似(SA)アルゴリズムとその半マルコフ決定過程(SMDP)における強化学習への応用について述べる。まず,Borkar と Meyn の安定性証明法を拡張し,より一般的な雑音条件に適応し,非同期SA アルゴリズムの収束性を保証する。これらの結果を活用することで、有限空間に対するシュヴァイツァーの古典的相対値反復アルゴリズム RVI Q-learning の非同期SAアナログの収束を確立し、SMDPを弱通信する。さらに、この応用においてSAを十分に活用するために、RVI Q-learningにおける最適報酬率を推定するための新しい単調性条件を導入する。これらの条件は、従来検討されていたアルゴリズムの枠組みを大幅に拡張し、RVI Q-learningの安定性と収束解析における新しい証明論で対処する。

関連論文リスト

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Online Statistical Inference for Time-varying Sample-averaged Q-learning [2.2374171443798034]
本稿では,バッチ平均Qラーニングの時間変化を,サンプル平均Qラーニングと呼ぶ。本研究では, サンプル平均化アルゴリズムの正規性について, 温和な条件下での洞察を提供する新しい枠組みを開発する。古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニングの時間変化は、シングルサンプルQ-ラーニングと定数バッチQ-ラーニングのどちらよりも一貫して優れていた。
論文参考訳（メタデータ） (2024-10-14T17:17:19Z)
On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes [11.868402302316131]
本稿では,マルコフ決定過程(MDP)の強化学習(RL)アルゴリズムを,平均回帰基準の下で解析する。本稿では,MDPを弱通信する反復RVI法のモデル自由集合であるRVI(Rexent Value)に基づくQ-learningアルゴリズムに着目した。
論文参考訳（メタデータ） (2024-08-29T04:57:44Z)
A Note on Stability in Asynchronous Stochastic Approximation without Communication Delays [11.868402302316131]
通信遅延のない非同期近似アルゴリズムについて検討する。私たちの主な貢献は、これらのアルゴリズムの安定性の証明です。本稿では,それらの応用を,平均回帰学習における重要な課題として論じる。
論文参考訳（メタデータ） (2023-12-22T22:18:13Z)
Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-04T01:47:37Z)
Stability and Generalization of Stochastic Compositional Gradient Descent Algorithms [61.59448949684493]
学習例から構築した合成降下アルゴリズムの安定性と一般化解析について述べる。 SCGD と SCSC という2つの一般的な合成勾配勾配勾配アルゴリズムの均一安定性について検討した。 SCGD と SCSC の非依存的過剰リスク境界は,安定性結果と最適化誤差をトレードオフすることによって導出する。
論文参考訳（メタデータ） (2023-07-07T02:40:09Z)
The Efficacy of Pessimism in Asynchronous Q-Learning [17.193902915070506]
ペシミズムの原理を非同期Q-ラーニングに組み込んだアルゴリズムフレームワークを開発した。このフレームワークは、サンプル効率の向上と、ほぼ専門的なデータの存在下での適応性の向上につながります。我々の結果は、マルコフ的非i.d.データの存在下での悲観主義原理の使用に対する最初の理論的支援を提供する。
論文参考訳（メタデータ） (2022-03-14T17:59:01Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
A Dynamical Systems Approach for Convergence of the Bayesian EM Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文参考訳（メタデータ） (2020-06-23T01:34:18Z)
Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文参考訳（メタデータ） (2020-06-12T00:32:21Z)
Joint Stochastic Approximation and Its Application to Learning Discrete Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文参考訳（メタデータ） (2020-05-28T13:50:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。