論文の概要: Going Beyond Linear RL: Sample Efficient Neural Function Approximation
- arxiv url: http://arxiv.org/abs/2107.06466v1
- Date: Wed, 14 Jul 2021 03:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 00:23:31.080198
- Title: Going Beyond Linear RL: Sample Efficient Neural Function Approximation
- Title(参考訳): 線形rlを超える:サンプル効率的な神経関数近似
- Authors: Baihe Huang and Kaixuan Huang and Sham M. Kakade and Jason D. Lee and
Qi Lei and Runzhe Wang and Jiaqi Yang
- Abstract要約: 2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
- 参考スコア(独自算出の注目度): 76.57464214864756
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep Reinforcement Learning (RL) powered by neural net approximation of the Q
function has had enormous empirical success. While the theory of RL has
traditionally focused on linear function approximation (or eluder dimension)
approaches, little is known about nonlinear RL with neural net approximations
of the Q functions. This is the focus of this work, where we study function
approximation with two-layer neural networks (considering both ReLU and
polynomial activation functions). Our first result is a computationally and
statistically efficient algorithm in the generative model setting under
completeness for two-layer neural networks. Our second result considers this
setting but under only realizability of the neural net function class. Here,
assuming deterministic dynamics, the sample complexity scales linearly in the
algebraic dimension. In all cases, our results significantly improve upon what
can be attained with linear (or eluder dimension) methods.
- Abstract(参考訳): Q関数のニューラルネット近似による深層強化学習(RL)は、経験的成功を収めた。
RLの理論は伝統的に線形関数近似(あるいは可溶性次元)アプローチに焦点を合わせてきたが、Q関数のニューラルネット近似を持つ非線形RLについてはほとんど知られていない。
この研究の焦点は、2層ニューラルネットワークによる関数近似(ReLUと多項式アクティベーション関数の両方を考慮する)の研究である。
最初の結果は、2層ニューラルネットワークの完全性を考慮した生成モデル設定における計算量および統計効率のよいアルゴリズムである。
第2の結果は、この設定を考えるが、ニューラルネット関数クラスは実現可能である。
ここで決定論的ダイナミクスを仮定すると、サンプル複雑性は代数次元において線形にスケールする。
いずれの場合においても, 線形(あるいはエルダー次元)法で達成できることで, 結果は著しく向上した。
関連論文リスト
- The limitation of neural nets for approximation and optimization [0.0]
最適化問題における目的関数の近似と最小化のために,ニューラルネットワークを代理モデルとして用いることに関心がある。
本研究は、一般的な非線形最適化テスト問題の目的関数を近似する最適なアクティベーション関数を決定することから始まる。
論文 参考訳(メタデータ) (2023-11-21T00:21:15Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Deep neural networks for smooth approximation of physics with higher
order and continuity B-spline base functions [0.4588028371034407]
伝統的に、ニューラルネットワークは、与えられた物理現象を近似するために非線形活性化関数を使用する。
そこで本研究では, 物理量を滑らかなB-スプライン基底関数の線形結合として近似する手法を提案する。
物理場を近似する場合,我々のアプローチはより安価で正確であることを示す。
論文 参考訳(メタデータ) (2022-01-03T23:02:39Z) - Classifying high-dimensional Gaussian mixtures: Where kernel methods
fail and neural networks succeed [27.38015169185521]
2層ニューラルネットワーク (2lnn) の隠れたニューロンがカーネル学習の性能を上回ることができることを理論的に示している。
ニューラルネットワークのオーバーパラメータが収束を早めるが、最終的な性能は改善しないことを示す。
論文 参考訳(メタデータ) (2021-02-23T15:10:15Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。