論文の概要: Sign-Separated Finite-Time Error Analysis of Q-Learning
- arxiv url: http://arxiv.org/abs/2605.16103v1
- Date: Fri, 15 May 2026 15:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.353291
- Title: Sign-Separated Finite-Time Error Analysis of Q-Learning
- Title(参考訳): Q-Learningの符号分離有限時間誤差解析
- Authors: Donghwan Lee,
- Abstract要約: 本稿では,段階的Q-ラーニングのための符号分離有限時間誤差解析法を提案する。
この分析は、Q-ラーニングエラーダイナミクスにおける最大誘起非対称性を同定する。
- 参考スコア(独自算出の注目度): 7.8232617281369805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops a sign-separated finite-time error analysis for constant step-size Q-learning. Starting from the switching-system representation, the error is decomposed into its componentwise negative and positive parts. The negative part is dominated by a lower comparison linear time-invariant (LTI) system associated with a fixed optimal policy, whereas the positive part is controlled by a linear switching system. The resulting bounds show that the negative-side LTI certificate is no slower than the positive-side switching certificate and may produce a faster exponential envelope. The analysis identifies a max-induced asymmetry in Q-learning error dynamics. This asymmetry is connected to overestimation: positive action-wise errors can be selected and propagated by the Bellman maximum, whereas negative errors admit an optimal-policy lower comparison. Finite-time bounds are provided for both deterministic and stochastic constant-step-size recursions.
- Abstract(参考訳): 本稿では,段階的Q-ラーニングのための符号分離有限時間誤差解析法を提案する。
スイッチングシステム表現から始めると、エラーはコンポーネント的に負の部分と正の部分に分解される。
負の部分は、固定された最適ポリシーに付随する低比較線形時間不変系(LTI)によって支配されるが、正の部分は線形切替系によって制御される。
その結果, 負側LTI証明書は正側切替証明書よりも遅くなく, より高速な指数エンベロープが得られることが示された。
この分析は、Q-ラーニングエラーダイナミクスにおける最大誘起非対称性を同定する。
この非対称性は過大評価と結びついている: 正のアクションワイド誤差はベルマンの最大値によって選択され、伝播されるが、負の誤差は最適な政治的比較を許容する。
有限時間境界は、決定論的および確率的定数-ステップ-サイズ再帰の両方に与えられる。
関連論文リスト
- Lyapunov-Certified Direct Switching Theory for Q-Learning [7.8232617281369805]
直接切替システム表現を用いてQ-ラーニングを解析する。
我々は、JSR による Lyapunov 関数を介して有限時間の最終定規を導出する。
論文 参考訳(メタデータ) (2026-04-21T15:22:42Z) - Verifying Closed-Loop Contractivity of Learning-Based Controllers via Partitioning [52.23804865017831]
本稿では,ニューラルネットワークによるパラメータ化を行う非線形制御系における閉ループ収縮の検証問題に対処する。
我々は、対称メッツラー行列の優越的固有値が非正であることを確かめるために、閉ループの縮約性に対するトラクタブルでスケーラブルな十分条件を導出する。
論文 参考訳(メタデータ) (2025-12-01T23:06:56Z) - The Hidden Cost of Approximation in Online Mirror Descent [56.99972253009168]
オンラインミラー降下(OMD)は、最適化、機械学習、シーケンシャルな意思決定において多くのアルゴリズムの基盤となる基本的なアルゴリズムパラダイムである。
本研究では,不正確なOMDに関する系統的研究を開始し,正規化器の滑らかさと近似誤差に対する頑健さとの複雑な関係を明らかにする。
論文 参考訳(メタデータ) (2025-11-27T10:09:07Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Learning with little mixing [9.574025613149871]
マーチンゲール差雑音を考慮した実測可能な時系列フレームワークにおける正方損失について検討する。
この結果から, トラジェクトリ過収縮条件が成立するたびに, 従属データに対する最小二乗推定器のリスクが, バーンイン時間後におけるイドレートの順に一致していることが示唆された。
論文 参考訳(メタデータ) (2022-06-16T16:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。