論文の概要: Unified ODE Analysis of Smooth Q-Learning Algorithms
- arxiv url: http://arxiv.org/abs/2404.14442v1
- Date: Sat, 20 Apr 2024 01:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:17:13.718116
- Title: Unified ODE Analysis of Smooth Q-Learning Algorithms
- Title(参考訳): Smooth Q-Learningアルゴリズムの統一ODE解析
- Authors: Donghwan Lee,
- Abstract要約: 近年,Q-ラーニングのためのコンバージェンス解析をスイッチングシステムフレームワークを用いて導入している。
スイッチングシステムアプローチを改善するために,より汎用的で統一的な収束解析を提案する。
- 参考スコア(独自算出の注目度): 5.152147416671501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convergence of Q-learning has been the focus of extensive research over the past several decades. Recently, an asymptotic convergence analysis for Q-learning was introduced using a switching system framework. This approach applies the so-called ordinary differential equation (ODE) approach to prove the convergence of the asynchronous Q-learning modeled as a continuous-time switching system, where notions from switching system theory are used to prove its asymptotic stability without using explicit Lyapunov arguments. However, to prove stability, restrictive conditions, such as quasi-monotonicity, must be satisfied for the underlying switching systems, which makes it hard to easily generalize the analysis method to other reinforcement learning algorithms, such as the smooth Q-learning variants. In this paper, we present a more general and unified convergence analysis that improves upon the switching system approach and can analyze Q-learning and its smooth variants. The proposed analysis is motivated by previous work on the convergence of synchronous Q-learning based on $p$-norm serving as a Lyapunov function. However, the proposed analysis addresses more general ODE models that can cover both asynchronous Q-learning and its smooth versions with simpler frameworks.
- Abstract(参考訳): Q-ラーニングの収束は、過去数十年にわたる広範な研究の焦点となっている。
近年,Q-ラーニングのための漸近収束解析をスイッチングシステムフレームワークを用いて導入している。
このアプローチは、連続時間スイッチングシステムとしてモデル化された非同期Q-ラーニングの収束を証明するために、いわゆる常微分方程式(ODE)アプローチを適用する。
しかし、安定性を証明するためには、準単調性のような制約条件を基礎となるスイッチングシステムに満たさなければならないため、解析方法をスムーズなQ-ラーニング変種など他の強化学習アルゴリズムに容易に一般化することは困難である。
本稿では、スイッチングシステムアプローチを改善し、Q-ラーニングとそのスムーズな変形を解析できる、より汎用的で統一的な収束解析を提案する。
提案手法は,Lyapunov関数として機能する$p$-normに基づく同期Q-ラーニングの収束に関する過去の研究に動機付けられている。
しかし、提案した分析は、より一般的なODEモデルに対処し、非同期Q-ラーニングと、より単純なフレームワークでそのスムーズなバージョンの両方をカバーできる。
関連論文リスト
- Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Mutation-Bias Learning in Games [1.743685428161914]
本稿では,進化ゲーム理論に基づくマルチエージェント強化学習アルゴリズムの2つの変種について述べる。
1つの変種は、レプリケータ・ミューテータ力学系の常微分方程式系との関係を証明できる。
より複雑なバリエーションは、Q-ラーニングベースのアルゴリズムとの比較を可能にする。
論文 参考訳(メタデータ) (2024-05-28T14:02:44Z) - Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach [4.36117236405564]
ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
論文 参考訳(メタデータ) (2024-03-11T01:36:37Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z) - Finite-Time Analysis of Asynchronous Q-learning under Diminishing
Step-Size from Control-Theoretic View [3.5823366350053325]
本稿ではマルコフ観測モデルに基づく非同期Q-ラーニングの新しい有限時間解析について検討する。
特に、ステップサイズを小さくしたQラーニングの離散時間時間変化切替システムモデルを提案する。
提案された分析は、さらなる洞察をもたらし、異なるシナリオをカバーし、分析のための新しい簡易テンプレートを提供する。
論文 参考訳(メタデータ) (2022-07-25T14:15:55Z) - Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time
Switching System Models [6.85316573653194]
一定のステップサイズを持つQ学習を離散時間切替線形系として自然に定式化できることを実証する。
主に制御フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。
論文 参考訳(メタデータ) (2021-02-17T05:32:07Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Formal Synthesis of Lyapunov Neural Networks [61.79595926825511]
本稿では,リアプノフ関数の自動合成法を提案する。
我々は,数値学習者と記号検証器が相互作用して,確実に正しいリアプノフニューラルネットワークを構築する,反例誘導方式を採用する。
提案手法は,Lyapunov関数を他の手法よりも高速かつ広い空間領域で合成する。
論文 参考訳(メタデータ) (2020-03-19T17:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。