論文の概要: Convergence of TD(0) under Polynomial Mixing with Nonlinear Function Approximation
- arxiv url: http://arxiv.org/abs/2502.05706v2
- Date: Tue, 20 May 2025 23:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.505347
- Title: Convergence of TD(0) under Polynomial Mixing with Nonlinear Function Approximation
- Title(参考訳): 非線形関数近似を用いた多項式混合によるTD(0)の収束
- Authors: Anupama Sridhar, Alexander Johansen,
- Abstract要約: 時間差分学習(TD(0))は強化学習の基本である。
マルコフデータを混合したバニラTD(0)の最初の高確率有限サンプル解析を行う。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Difference Learning (TD(0)) is fundamental in reinforcement learning, yet its finite-sample behavior under non-i.i.d. data and nonlinear approximation remains unknown. We provide the first high-probability, finite-sample analysis of vanilla TD(0) on polynomially mixing Markov data, assuming only Holder continuity and bounded generalized gradients. This breaks with previous work, which often requires subsampling, projections, or instance-dependent step-sizes. Concretely, for mixing exponent $\beta > 1$, Holder continuity exponent $\gamma$, and step-size decay rate $\eta \in (1/2, 1]$, we show that, with high probability, \[ \| \theta_t - \theta^* \| \leq C(\beta, \gamma, \eta)\, t^{-\beta/2} + C'(\gamma, \eta)\, t^{-\eta\gamma} \] after $t = \mathcal{O}(1/\varepsilon^2)$ iterations. These bounds match the known i.i.d. rates and hold even when initialization is nonstationary. Central to our proof is a novel discrete-time coupling that bypasses geometric ergodicity, yielding the first such guarantee for nonlinear TD(0) under realistic mixing.
- Abstract(参考訳): 時間差分学習(TD(0))は強化学習の基本であるが、その有限サンプルの振る舞いは非I.d.データと非線形近似の下では分かっていない。
我々は、ホルダー連続性と有界一般化勾配のみを仮定して、多項式混合マルコフデータに対するバニラTD(0)の最初の高確率有限サンプル解析を提供する。
これは、しばしばサブサンプリング、プロジェクション、インスタンス依存のステップサイズを必要とする以前の作業で壊れる。
具体的には、指数 $\beta > 1$ と、ホルダー連続性指数 $\gamma$ と、ステップサイズ崩壊率 $\eta \in (1/2, 1]$ を混合するために、高い確率で、 \[ \| \theta_t - \theta^* \| \leq C(\beta, \gamma, \eta)\, t^{-\beta/2} + C'(\gamma, \eta)\, t^{-\eta\gamma} \] は、$t = \mathcal{O}(1/\varepsilon^2)$反復であることを示す。
これらの境界は既知のi.d.レートと一致し、初期化が非定常である場合でも保持する。
我々の証明の中心は、幾何学的エルゴード性を回避する新しい離散時間結合であり、現実的な混合の下での非線形TD(0)に対する最初の保証となる。
関連論文リスト
- Finite Sample Analysis of Distributional TD Learning with Linear Function Approximation [21.999445060856278]
線形分布型TD学習の複雑さは古典的線形TD学習の複雑さと一致することを示す。
本研究は,分布強化学習アルゴリズムの統計的効率に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-20T00:53:22Z) - Adversarial Dependence Minimization [78.36795688238155]
この研究は、線形対のデコリレーションを超越した依存最小化のための微分可能でスケーラブルなアルゴリズムを提供する。
我々は,PCAを非線形デコリレーションに拡張し,画像分類法の一般化を改良し,自己教師あり表現学習における次元的崩壊を防止する3つのアプリケーションでその実用性を実証する。
論文 参考訳(メタデータ) (2025-02-05T14:43:40Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Identifiable Feature Learning for Spatial Data with Nonlinear ICA [18.480534062833673]
本稿では,高次元依存構造を持つデータに自然に適用する潜在成分を用いた新しい非線形ICAフレームワークを提案する。
特に、計算効率を誘導する前に、ディープニューラルネットワークミキシング関数とTPの組み合わせを扱うための変分法を拡張する新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-11-28T15:00:11Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Efficient Interpretable Nonlinear Modeling for Multiple Time Series [5.448070998907116]
本稿では,複数時系列に対する効率的な非線形モデリング手法を提案する。
異なる時系列変数間の非線形相互作用を含む。
実験結果から,提案アルゴリズムは相似的にVAR係数の支持値の同定を改善することが示された。
論文 参考訳(メタデータ) (2023-09-29T11:42:59Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Online Statistical Inference for Nonlinear Stochastic Approximation with
Markovian Data [22.59079286063505]
マルコフデータの単一軌跡を用いた非線形近似アルゴリズムの統計的推定について検討した。
本手法は,自動回帰データや非同期Q-Learningにおけるグラディエント・Descent (SGD) など,様々なシナリオで実用化されている。
論文 参考訳(メタデータ) (2023-02-15T14:31:11Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - On Hypothesis Transfer Learning of Functional Linear Models [8.557392136621894]
再生カーネル空間(RKHS)フレームワークを用いて,関数線形回帰(FLR)のための伝達学習(TL)について検討する。
我々は、RKHS距離を用いてタスク間の類似度を測定し、RKHSの特性に関連付けられた情報の転送を行う。
2つのアルゴリズムが提案され、1つは正のソースが分かっているときに転送を行い、もう1つはアグリゲーションを利用してソースに関する事前情報なしでロバストな転送を行う。
論文 参考訳(メタデータ) (2022-06-09T04:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。