論文の概要: TD(0) Learning converges for Polynomial mixing and non-linear functions
- arxiv url: http://arxiv.org/abs/2502.05706v1
- Date: Sat, 08 Feb 2025 22:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:14.352650
- Title: TD(0) Learning converges for Polynomial mixing and non-linear functions
- Title(参考訳): 多項式混合と非線形関数に対するTD(0)学習収束
- Authors: Anupama Sridhar, Alexander Johansen,
- Abstract要約: そこで本研究では,より適切な仮定の下でのTD学習に関する理論的知見について述べる。
これは、普遍的および非独立なステップサイズの下でマルコフデータ上でのTD(0)収束の最初の証明である。
我々の結果は、一般化勾配の下での線型モデルと非線形モデルの境界と、H"より古い連続性を含む。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License:
- Abstract: Theoretical work on Temporal Difference (TD) learning has provided finite-sample and high-probability guarantees for data generated from Markov chains. However, these bounds typically require linear function approximation, instance-dependent step sizes, algorithmic modifications, and restrictive mixing rates. We present theoretical findings for TD learning under more applicable assumptions, including instance-independent step sizes, full data utilization, and polynomial ergodicity, applicable to both linear and non-linear functions. \textbf{To our knowledge, this is the first proof of TD(0) convergence on Markov data under universal and instance-independent step sizes.} While each contribution is significant on its own, their combination allows these bounds to be effectively utilized in practical application settings. Our results include bounds for linear models and non-linear under generalized gradients and H\"older continuity.
- Abstract(参考訳): 時間差分学習(TD)に関する理論的研究はマルコフ連鎖から生成されるデータに対して有限サンプルと高確率保証を提供してきた。
しかし、これらの境界は一般に線形関数近似、インスタンス依存のステップサイズ、アルゴリズムの修正、制限的な混合速度を必要とする。
本稿では, 線形関数と非線形関数の両方に適用可能な, インスタンス非依存のステップサイズ, 完全データ利用, 多項式エルゴード性など, より適用可能な仮定の下でのTD学習に関する理論的知見を示す。
我々の知る限りでは、これは普遍的およびインスタンスに依存しないステップサイズの下でマルコフデータ上のTD(0)収束の最初の証明である。
それぞれのコントリビューションはそれ自体は重要であるが、それらの組み合わせによって、これらのバウンダリを実用的なアプリケーション設定で効果的に利用することができる。
我々の結果は、一般化勾配の下での線型モデルと非線形モデルの境界と、H\"古い連続性を含む。
関連論文リスト
- Finite Sample Analysis of Distributional TD Learning with Linear Function Approximation [21.999445060856278]
線形分布型TD学習の複雑さは古典的線形TD学習の複雑さと一致することを示す。
本研究は,分布強化学習アルゴリズムの統計的効率に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-20T00:53:22Z) - Adversarial Dependence Minimization [78.36795688238155]
この研究は、線形対のデコリレーションを超越した依存最小化のための微分可能でスケーラブルなアルゴリズムを提供する。
我々は,PCAを非線形デコリレーションに拡張し,画像分類法の一般化を改良し,自己教師あり表現学習における次元的崩壊を防止する3つのアプリケーションでその実用性を実証する。
論文 参考訳(メタデータ) (2025-02-05T14:43:40Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Identifiable Feature Learning for Spatial Data with Nonlinear ICA [18.480534062833673]
本稿では,高次元依存構造を持つデータに自然に適用する潜在成分を用いた新しい非線形ICAフレームワークを提案する。
特に、計算効率を誘導する前に、ディープニューラルネットワークミキシング関数とTPの組み合わせを扱うための変分法を拡張する新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-11-28T15:00:11Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Efficient Interpretable Nonlinear Modeling for Multiple Time Series [5.448070998907116]
本稿では,複数時系列に対する効率的な非線形モデリング手法を提案する。
異なる時系列変数間の非線形相互作用を含む。
実験結果から,提案アルゴリズムは相似的にVAR係数の支持値の同定を改善することが示された。
論文 参考訳(メタデータ) (2023-09-29T11:42:59Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - On Hypothesis Transfer Learning of Functional Linear Models [8.557392136621894]
再生カーネル空間(RKHS)フレームワークを用いて,関数線形回帰(FLR)のための伝達学習(TL)について検討する。
我々は、RKHS距離を用いてタスク間の類似度を測定し、RKHSの特性に関連付けられた情報の転送を行う。
2つのアルゴリズムが提案され、1つは正のソースが分かっているときに転送を行い、もう1つはアグリゲーションを利用してソースに関する事前情報なしでロバストな転送を行う。
論文 参考訳(メタデータ) (2022-06-09T04:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。