論文の概要: Target Updates May Stabilize Linear Q-Learning: Periodic and Soft Dynamics
- arxiv url: http://arxiv.org/abs/2606.02645v1
- Date: Sun, 31 May 2026 15:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.489449
- Title: Target Updates May Stabilize Linear Q-Learning: Periodic and Soft Dynamics
- Title(参考訳): ターゲット更新でリニアQ-Learningが安定する可能性-周期的・ソフトなダイナミクス
- Authors: Donghwan Lee,
- Abstract要約: 本稿では,線形関数近似を用いたQ学習機構の厳密かつ正確に解析する(線形Q学習)。
線形Q-ラーニングは一般に収束しないが、明示的なスペクトルおよびステップサイズ条件下では、周期的ハードターゲット更新とソフトターゲット更新が正確なQ-ベルマン解の収束を保証することを証明している。
- 参考スコア(独自算出の注目度): 7.8232617281369805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Periodic target updates in Q-learning and soft target updates in actor-critic methods are empirically well established stabilization mechanisms, but their precise theoretical explanation is still incomplete. This paper gives a rigorous and exact analysis of these mechanisms for Q-learning with linear function approximation (linear Q-learning) using the exact switched linear system (SLS) dynamics induced by the Bellman maximum and the joint spectral radius (JSR) of the resulting switching matrix families. Although linear Q-learning can fail to converge in general, we prove that, under explicit spectral and step-size conditions, periodic hard target updates and soft target updates can guarantee convergence to the exact projected Q-Bellman solution. The main analysis is carried out for deterministic linear Q-learning, where the target-update mechanism is most transparent. Once the corresponding JSR certificate is established for the mean recursion, the stochastic reinforcement-learning setting can be treated by replacing deterministic modes with sampled stochastic modes and adding the corresponding stochastic-noise analysis.
- Abstract(参考訳): Q-ラーニングにおける周期的目標更新とアクター批判手法のソフトターゲット更新は、実証的に確立された安定化メカニズムであるが、その正確な理論的説明はまだ不完全である。
本稿では, 線形関数近似(線形Q-ラーニング)を用いたこれらのQ-ラーニングのメカニズムを, ベルマン最大値と結果の切換行列列の関節スペクトル半径(JSR)によって誘起される正確な切替線形系(SLS)ダイナミクスを用いて, 厳密かつ正確な解析を行った。
線形Q-ラーニングは一般に収束できないが、明示的なスペクトルおよびステップサイズ条件下では、周期的ハードターゲット更新とソフトターゲット更新が正確なQ-ベルマン解の収束を保証することを証明している。
主解析は決定論的線形Q-ラーニングであり、ターゲット更新機構が最も透明である。
平均再帰のために対応するJSR証明書が確立されると、確率的強化学習設定は、決定論的モードをサンプリングされた確率的モードに置き換え、対応する確率的雑音解析を追加することで処理できる。
関連論文リスト
- A Switching System Theory of Q-Learning with Linear Function Approximation [10.48957127047368]
本稿では,共同スペクトル半径(JSR)に基づく線形関数近似(LFA)を用いたQ-ラーニングの切替系解釈を開発する。
平均力学の線形切替モデルを導出し,それに対応する切替系に関連付ける。
フレームワークはまた、LFAによる正規化Q-ラーニングのJSRベースのビューも提供します。
論文 参考訳(メタデータ) (2026-05-10T16:21:31Z) - Disordered Dynamics in High Dimensions: Connections to Random Matrices and Machine Learning [52.26396748560348]
ランダム行列によって駆動される高次元力学系について概説する。
機械学習理論における学習と一般化の単純なモデルへの応用に焦点を当てる。
論文 参考訳(メタデータ) (2026-01-03T00:12:32Z) - Unified ODE Analysis of Smooth Q-Learning Algorithms [7.8232617281369805]
近年,Q-ラーニングのためのコンバージェンス解析をスイッチングシステムフレームワークを用いて導入している。
スイッチングシステムアプローチを改善するために,より汎用的で統一的な収束解析を提案する。
論文 参考訳(メタデータ) (2024-04-20T01:16:27Z) - Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。
本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。
多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文 参考訳(メタデータ) (2023-06-14T11:41:42Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time
Switching System Models [6.85316573653194]
一定のステップサイズを持つQ学習を離散時間切替線形系として自然に定式化できることを実証する。
主に制御フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。
論文 参考訳(メタデータ) (2021-02-17T05:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。