論文の概要: Finite-Time Analysis of Asynchronous Q-learning under Diminishing
Step-Size from Control-Theoretic View
- arxiv url: http://arxiv.org/abs/2207.12217v1
- Date: Mon, 25 Jul 2022 14:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:19:03.570663
- Title: Finite-Time Analysis of Asynchronous Q-learning under Diminishing
Step-Size from Control-Theoretic View
- Title(参考訳): 制御論的観点からのステップサイズ減少下における非同期q-learningの有限時間解析
- Authors: Han-Dong Lim, Donghwan Lee
- Abstract要約: 本稿ではマルコフ観測モデルに基づく非同期Q-ラーニングの新しい有限時間解析について検討する。
特に、ステップサイズを小さくしたQラーニングの離散時間時間変化切替システムモデルを提案する。
提案された分析は、さらなる洞察をもたらし、異なるシナリオをカバーし、分析のための新しい簡易テンプレートを提供する。
- 参考スコア(独自算出の注目度): 3.5823366350053325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-learning has long been one of the most popular reinforcement learning
algorithms, and theoretical analysis of Q-learning has been an active research
topic for decades. Although researches on asymptotic convergence analysis of
Q-learning have a long tradition, non-asymptotic convergence has only recently
come under active study. The main goal of this paper is to investigate new
finite-time analysis of asynchronous Q-learning under Markovian observation
models via a control system viewpoint. In particular, we introduce a
discrete-time time-varying switching system model of Q-learning with
diminishing step-sizes for our analysis, which significantly improves recent
development of the switching system analysis with constant step-sizes, and
leads to \(\mathcal{O}\left( \sqrt{\frac{\log k}{k}} \right)\) convergence rate
that is comparable to or better than most of the state of the art results in
the literature. In the mean while, a technique using the similarly
transformation is newly applied to avoid the difficulty in the analysis posed
by diminishing step-sizes. The proposed analysis brings in additional insights,
covers different scenarios, and provides new simplified templates for analysis
to deepen our understanding on Q-learning via its unique connection to
discrete-time switching systems.
- Abstract(参考訳): q-learningは長年にわたり強化学習アルゴリズムの1つであり、q-learningの理論分析は数十年にわたって活発な研究テーマとなっている。
Q-ラーニングの漸近収束解析の研究には長い伝統があるが、最近になって非漸近収束の研究が活発に行われている。
本研究の目的は,マルコフ観測モデルに基づく非同期Q-ラーニングの新しい有限時間解析を制御システムの観点から検討することである。
特に,ステップサイズを減少させるq-ラーニングの離散時間変動スイッチングシステムモデルを導入し,一定のステップサイズを持つスイッチングシステム解析の最近の展開を著しく改善し,文献におけるアート結果のほとんどと同等以上の収束率である \(\mathcal{o}\left( \sqrt{\frac{\log k}{k}} \right)\) を導出する。
一方, ステップサイズの縮小によって生じる分析の難易度を回避するために, 同様の変換を用いた手法が新たに適用された。
提案する分析では,新たな洞察と,さまざまなシナリオをカバーするとともに,離散時間切替システムへのユニークな接続を通じて,q-learningに関する理解を深めるための,新たな簡易テンプレートを提供する。
関連論文リスト
- Unified ODE Analysis of Smooth Q-Learning Algorithms [5.152147416671501]
近年,Q-ラーニングのためのコンバージェンス解析をスイッチングシステムフレームワークを用いて導入している。
スイッチングシステムアプローチを改善するために,より汎用的で統一的な収束解析を提案する。
論文 参考訳(メタデータ) (2024-04-20T01:16:27Z) - Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach [4.36117236405564]
ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
論文 参考訳(メタデータ) (2024-03-11T01:36:37Z) - It Is Time To Steer: A Scalable Framework for Analysis-driven Attack Graph Generation [50.06412862964449]
アタックグラフ(AG)は、コンピュータネットワークに対するマルチステップ攻撃に対するサイバーリスクアセスメントをサポートする最も適したソリューションである。
現在の解決策は、アルゴリズムの観点から生成問題に対処し、生成が完了した後のみ解析を仮定することである。
本稿では,アナリストがいつでもシステムに問い合わせることのできる新しいワークフローを通じて,従来のAG分析を再考する。
論文 参考訳(メタデータ) (2023-12-27T10:44:58Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Finite-Time Analysis of Minimax Q-Learning for Two-Player Zero-Sum
Markov Games: Switching System Approach [3.5823366350053325]
本稿では,2プレイヤーゼロサムマルコフゲームに適用したQ-ラーニングアルゴリズムの有限時間解析について検討する。
ミニマックスQ-ラーニングのスイッチングシステムモデルと関連する値反復を用いる。
論文 参考訳(メタデータ) (2023-06-09T06:39:37Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z) - Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time
Switching System Models [6.85316573653194]
一定のステップサイズを持つQ学習を離散時間切替線形系として自然に定式化できることを実証する。
主に制御フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。
論文 参考訳(メタデータ) (2021-02-17T05:32:07Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。