論文の概要: Reinforcement Learning with Function Approximation: From Linear to
Nonlinear
- arxiv url: http://arxiv.org/abs/2302.09703v1
- Date: Mon, 20 Feb 2023 00:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:07:01.289950
- Title: Reinforcement Learning with Function Approximation: From Linear to
Nonlinear
- Title(参考訳): 関数近似による強化学習:線形から非線形へ
- Authors: Jihao Long and Jiequn Han
- Abstract要約: 本稿では,線形あるいは非線形近似の設定における強化学習アルゴリズムの誤差解析に関する最近の結果についてレビューする。
近似誤差と遷移確率および報酬関数に関する具体的条件に関する諸特性について論じる。
- 参考スコア(独自算出の注目度): 4.314956204483073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Function approximation has been an indispensable component in modern
reinforcement learning algorithms designed to tackle problems with large state
space in high dimensions. This paper reviews the recent results on the error
analysis of those reinforcement learning algorithms in the settings of linear
or nonlinear approximation, with an emphasis on the approximation error and the
estimation error/sample complexity. We discuss different properties related to
the approximation error and concrete conditions on the transition probability
and reward function under which these properties hold true. The sample
complexity in reinforcement learning is more complicated for analysis compared
to supervised learning, mainly due to the distribution mismatch phenomenon.
With assumptions on the linear structure of the problem, there are various
algorithms in the literature that can achieve polynomial sample complexity with
respect to the number of features, episode length, and accuracy, although the
minimax rate has not been achieved yet. These results rely on the $L^\infty$
and UCB estimation of estimation error, which can handle the distribution
mismatch phenomenon. The problem and analysis become much more challenging in
the setting of nonlinear function approximation since both $L^\infty$ and UCB
estimation are inadequate to help bound the error with a good rate in high
dimensions. We discuss different additional assumptions needed to handle the
distribution mismatch and derive meaningful results for nonlinear RL problems.
- Abstract(参考訳): 関数近似は、高次元の大きな状態空間の問題に対処するために設計された現代の強化学習アルゴリズムにおいて欠かせない要素である。
本稿では、線形あるいは非線形近似の設定における強化学習アルゴリズムの誤差解析に関する最近の結果について、近似誤差と推定誤差/サンプル複雑性に着目して概説する。
これらの特性が真である遷移確率と報酬関数に関する近似誤差と具体的な条件に関する諸特性について論じる。
強化学習におけるサンプルの複雑さは、主に分布ミスマッチ現象のため、教師付き学習に比べて分析が複雑である。
問題の線形構造を仮定した文献には, 特徴数, エピソード長, 正確性に関して, 多項式サンプル複雑性を達成するための様々なアルゴリズムが存在するが, 最小化速度はまだ達成されていない。
これらの結果は、分布ミスマッチ現象を処理できる推定誤差の$l^\infty$およびucb推定に依存する。
l^\infty$ と ucb のどちらも高い次元の精度で誤差をバインドするのに不適当であるため、問題と解析は非線形関数近似の設定においてより困難になる。
分布ミスマッチを処理し、非線形RL問題に対して有意な結果をもたらすために、異なる仮定を議論する。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Inexact subgradient methods for semialgebraic functions [18.293072574300798]
機械学習と機械学習の最適化において近似微分が広く使われていることから、我々は、非消滅エラーを伴う過渡的手法を不正確なものにしている。
論文 参考訳(メタデータ) (2024-04-30T12:47:42Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Online Regularized Learning Algorithm for Functional Data [2.5382095320488673]
本稿では,Hilbertカーネル空間におけるオンライン正規化学習アルゴリズムについて考察する。
その結果, 定常的なステップサイズでの予測誤差と推定誤差の収束速度は, 文献と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-24T11:56:10Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling [28.371541697552928]
一般作用空間を線形埋め込み性条件下で保持する非線形関数近似の最初の結果を示す。
最悪の場合,RL問題のランクパラメータでスケールが保証される。
論文 参考訳(メタデータ) (2022-03-15T20:50:26Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。
合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-26T11:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。