論文の概要: A prior Estimates for Deep Residual Network in Continuous-time
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.16899v1
- Date: Sat, 24 Feb 2024 06:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:09:07.100104
- Title: A prior Estimates for Deep Residual Network in Continuous-time
Reinforcement Learning
- Title(参考訳): 連続時間強化学習における深層残留ネットワークの事前推定
- Authors: Shuyu Yin, Qixuan Zhou, Fei Wen, Tao Luo
- Abstract要約: 本研究は, 連続時間制御問題に焦点をあて, これらすべての問題に適用可能な手法を提案する。
この手法により,ベルマン最適損失のエンファ優先一般化誤差を直接解析できる。
我々は次元の呪いを伴わない強調優先一般化誤差を得る。
- 参考スコア(独自算出の注目度): 12.007725083726795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning excels in numerous large-scale practical
applications. However, existing performance analyses ignores the unique
characteristics of continuous-time control problems, is unable to directly
estimate the generalization error of the Bellman optimal loss and require a
boundedness assumption. Our work focuses on continuous-time control problems
and proposes a method that is applicable to all such problems where the
transition function satisfies semi-group and Lipschitz properties. Under this
method, we can directly analyze the \emph{a priori} generalization error of the
Bellman optimal loss. The core of this method lies in two transformations of
the loss function. To complete the transformation, we propose a decomposition
method for the maximum operator. Additionally, this analysis method does not
require a boundedness assumption. Finally, we obtain an \emph{a priori}
generalization error without the curse of dimensionality.
- Abstract(参考訳): 深層強化学習は多くの大規模応用において優れている。
しかし、既存の性能解析は、連続時間制御問題の特徴を無視し、ベルマン最適損失の一般化誤差を直接見積もることができず、有界性仮定を必要とする。
本研究は,連続時間制御問題に着目し,遷移関数が半群およびリプシッツ特性を満たすようなすべての問題に適用可能な手法を提案する。
この方法では、ベルマン最適損失のemph{a priori}汎化誤差を直接解析することができる。
この方法の核心は損失関数の2つの変換にある。
変換を完了させるために,最大演算子の分解法を提案する。
さらに、この解析方法は境界性仮定を必要としない。
最後に、次元の呪いを伴わない 'emph{a priori} 一般化誤差を得る。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Predictor-corrector algorithms for stochastic optimization under gradual
distribution shift [26.897316325189212]
時間変化の最適化問題は機械学習の実践で頻繁に発生する。
我々は、時間変動最適化のための予測器相関アルゴリズムを開発することにより、この基礎となる連続性を利用する。
論文 参考訳(メタデータ) (2022-05-26T18:33:00Z) - A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning [25.39784277231972]
線形 MSPBE を非線形設定に拡張する一般化 MSPBE を導入する。
我々は、一般化された目的を最小化するために、使いやすいが、音のアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-28T15:50:34Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Provably Convergent Working Set Algorithm for Non-Convex Regularized
Regression [0.0]
本稿では、収束保証付き非正則正規化器のためのワーキングセットアルゴリズムを提案する。
その結果,ブロックコーディネートや勾配ソルバの完全解法と比較して高い利得を示した。
論文 参考訳(メタデータ) (2020-06-24T07:40:31Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z) - An Analysis of Regularized Approaches for Constrained Machine Learning [17.300144121921882]
機械学習(ML)に制約を注入する正規化ベースのアプローチを導入し、専門家の知識を通じて予測モデルを改善する。
我々は,学習者の精度と正規化制約との間の適切なバランスを求める問題に取り組む。
論文 参考訳(メタデータ) (2020-05-20T15:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。