論文の概要: Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach
- arxiv url: http://arxiv.org/abs/2403.06366v2
- Date: Tue, 18 Jun 2024 01:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 03:55:50.986367
- Title: Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach
- Title(参考訳): ソフトQ-Learningの有限時間誤差解析:スイッチングシステムアプローチ
- Authors: Narim Jeong, Donghwan Lee,
- Abstract要約: ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
- 参考スコア(独自算出の注目度): 4.36117236405564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft Q-learning is a variation of Q-learning designed to solve entropy regularized Markov decision problems where an agent aims to maximize the entropy regularized value function. Despite its empirical success, there have been limited theoretical studies of soft Q-learning to date. This paper aims to offer a novel and unified finite-time, control-theoretic analysis of soft Q-learning algorithms. We focus on two types of soft Q-learning algorithms: one utilizing the log-sum-exp operator and the other employing the Boltzmann operator. By using dynamical switching system models, we derive novel finite-time error bounds for both soft Q-learning algorithms. We hope that our analysis will deepen the current understanding of soft Q-learning by establishing connections with switching system models and may even pave the way for new frameworks in the finite-time analysis of other reinforcement learning algorithms.
- Abstract(参考訳): ソフトQ-ラーニングは、エージェントがエントロピー正規化値関数を最大化することを目的としたマルコフ決定問題を解くために設計されたQ-ラーニングのバリエーションである。
実証的な成功にもかかわらず、ソフトQラーニングの理論的な研究はこれまで限られている。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
本稿では,log-sum-exp演算子とBoltzmann演算子を用いた2種類のソフトQ-ラーニングアルゴリズムに着目した。
動的切替システムモデルを用いて、両ソフトQ-ラーニングアルゴリズムに対して、新しい有限時間誤差境界を導出する。
我々は、システムモデルとの接続を確立することで、ソフトQ学習の現在の理解を深め、他の強化学習アルゴリズムの有限時間解析における新しいフレームワークの道を開くことを願っている。
関連論文リスト
- Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。
従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-02-08T08:08:23Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Finite-Time Analysis of Minimax Q-Learning for Two-Player Zero-Sum
Markov Games: Switching System Approach [3.5823366350053325]
本稿では,2プレイヤーゼロサムマルコフゲームに適用したQ-ラーニングアルゴリズムの有限時間解析について検討する。
ミニマックスQ-ラーニングのスイッチングシステムモデルと関連する値反復を用いる。
論文 参考訳(メタデータ) (2023-06-09T06:39:37Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Finite-Time Analysis of Asynchronous Q-learning under Diminishing
Step-Size from Control-Theoretic View [3.5823366350053325]
本稿ではマルコフ観測モデルに基づく非同期Q-ラーニングの新しい有限時間解析について検討する。
特に、ステップサイズを小さくしたQラーニングの離散時間時間変化切替システムモデルを提案する。
提案された分析は、さらなる洞察をもたらし、異なるシナリオをカバーし、分析のための新しい簡易テンプレートを提供する。
論文 参考訳(メタデータ) (2022-07-25T14:15:55Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time
Switching System Models [6.85316573653194]
一定のステップサイズを持つQ学習を離散時間切替線形系として自然に定式化できることを実証する。
主に制御フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。
論文 参考訳(メタデータ) (2021-02-17T05:32:07Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Information Freshness-Aware Task Offloading in Air-Ground Integrated
Edge Computing Systems [49.80033982995667]
本稿では,空域統合マルチアクセスエッジコンピューティングシステムにおける情報更新性を考慮したタスクオフロードの問題について検討する。
サードパーティのリアルタイムアプリケーションサービスプロバイダは、InPからの限られた通信と計算リソースで、加入したモバイルユーザ(MU)にコンピューティングサービスを提供する。
本稿では,各MUに2つの個別の深度Q-networksを適用し,Q-factorと後Q-factorを近似する新しい深度強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-15T21:32:43Z) - Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent [47.3692506462581]
AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
論文 参考訳(メタデータ) (2020-07-15T01:11:43Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。