論文の概要: Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Features
- arxiv url: http://arxiv.org/abs/2409.12135v1
- Date: Wed, 18 Sep 2024 16:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:35:11.516097
- Title: Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Features
- Title(参考訳): 任意特徴をもつ線形時間差学習のほぼ確実な収束
- Authors: Jiuqi Wang, Shangtong Zhang,
- Abstract要約: この研究は、線形独立な特徴を必要とせず、線形TDのほぼ確実に収束を確立する最初のものである。
解析の鍵となるのは、線形TDの平均ODEの有界不変集合の新たな特徴付けである。
- 参考スコア(独自算出の注目度): 18.326126953667842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal difference (TD) learning with linear function approximation, abbreviated as linear TD, is a classic and powerful prediction algorithm in reinforcement learning. While it is well understood that linear TD converges almost surely to a unique point, this convergence traditionally requires the assumption that the features used by the approximator are linearly independent. However, this linear independence assumption does not hold in many practical scenarios. This work is the first to establish the almost sure convergence of linear TD without requiring linearly independent features. In fact, we do not make any assumptions on the features. We prove that the approximated value function converges to a unique point and the weight iterates converge to a set. We also establish a notion of local stability of the weight iterates. Importantly, we do not need to introduce any other additional assumptions and do not need to make any modification to the linear TD algorithm. Key to our analysis is a novel characterization of bounded invariant sets of the mean ODE of linear TD.
- Abstract(参考訳): 線形関数近似を用いた時間差分学習(TD)は、強化学習における古典的で強力な予測アルゴリズムである。
線型TDがほぼ確実に一意点に収束することはよく理解されているが、この収束は伝統的に近似器で使われる特徴が線型独立であるという仮定を必要とする。
しかし、この線形独立仮定は多くの現実的なシナリオでは成立しない。
この研究は、線形独立な特徴を必要とせず、線形TDのほぼ確実に収束を確立する最初のものである。
実際、私たちはその機能について何の仮定もしていません。
近似値関数が一意点に収束し、重みが集合に収束することを証明する。
また、重みの局所安定性の概念も確立する。
重要なことに、他の仮定を導入する必要はなく、線形TDアルゴリズムを変更する必要もない。
解析の鍵となるのは、線形TDの平均ODEの有界不変集合の新たな特徴付けである。
関連論文リスト
- Nonsmooth Implicit Differentiation: Deterministic and Stochastic Convergence Rates [34.81849268839475]
パラメトリックな非微分可縮写像の固定点の微分を効率的に計算する問題について検討する。
我々は、反復的分化(ITD)と近似的暗黙的分化(AID)の2つの一般的なアプローチを分析する。
我々はNSIDの収束率を確立し、スムーズな環境での最良の利用率を含む。
論文 参考訳(メタデータ) (2024-03-18T11:37:53Z) - Finite-Time Decoupled Convergence in Nonlinear Two-Time-Scale Stochastic Approximation [26.97172212786727]
非線形二時間スケール近似における有限時間デカップリング収束の可能性について検討する。
ネストされた局所線型性仮定の下では、有限時間非結合収束速度は適切なステップサイズ選択によって達成できる。
論文 参考訳(メタデータ) (2024-01-08T13:44:35Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - How catastrophic can catastrophic forgetting be in linear regression? [30.702863017223457]
モデルがその後のタスクのトレーニング後に、以前のタスクの本当のラベルをどれだけ忘れているかを分析する。
線形設定における連続学習と他の2つの研究領域の関連性を確立する。
論文 参考訳(メタデータ) (2022-05-19T14:28:40Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Regularized Q-learning [6.663174194579773]
本稿では,線形関数近似を用いて収束する新しいQ-ラーニングアルゴリズムを提案する。
線形関数近似を用いたQ-ラーニングが分散した環境に収束することが実験的に示された。
論文 参考訳(メタデータ) (2022-02-11T01:29:50Z) - Learning the Koopman Eigendecomposition: A Diffeomorphic Approach [7.309026600178573]
コープマン固有関数を用いた安定非線形系の線形表現を学習するための新しいデータ駆動手法を提案する。
我々の知る限りでは、これは演算子、システム、学習理論の間のギャップを埋める最初の試みである。
論文 参考訳(メタデータ) (2021-10-15T00:47:21Z) - Robust Online Control with Model Misspecification [96.23493624553998]
本研究では,未知の非線形力学系のモデル不特定性を考慮したオンライン制御について検討する。
本研究は, 線形近似からの偏差を許容できる程度に測定できるロバスト性に着目した。
論文 参考訳(メタデータ) (2021-07-16T07:04:35Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。