論文の概要: Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature
- arxiv url: http://arxiv.org/abs/2102.04168v1
- Date: Mon, 8 Feb 2021 12:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:34:58.884686
- Title: Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature
- Title(参考訳): Provable Model-based nonlinear Bandit and Reinforcement Learning: Shelve Optimism, Embrace Virtual Curvature
- Authors: Kefan Dong, Jiaqi Yang, Tengyu Ma
- Abstract要約: 決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 61.22680308681648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies model-based bandit and reinforcement learning (RL) with
nonlinear function approximations. We propose to study convergence to
approximate local maxima because we show that global convergence is
statistically intractable even for one-layer neural net bandit with a
deterministic reward. For both nonlinear bandit and RL, the paper presents a
model-based algorithm, Virtual Ascent with Online Model Learner (ViOL), which
provably converges to a local maximum with sample complexity that only depends
on the sequential Rademacher complexity of the model class. Our results imply
novel global or local regret bounds on several concrete settings such as linear
bandit with finite or sparse model class, and two-layer neural net bandit. A
key algorithmic insight is that optimism may lead to over-exploration even for
two-layer neural net model class. On the other hand, for convergence to local
maxima, it suffices to maximize the virtual return if the model can also
reasonably predict the size of the gradient and Hessian of the real return.
- Abstract(参考訳): 本稿では,非線形関数近似を用いたモデルベースバンディットと強化学習(RL)について検討する。
そこで本研究では,一層ニューラルネットワークの帯域においても,大域収束が統計的に抑制可能であることを示すため,局所的最大値に近似する収束について検討する。
非線形バンディットとRLの両方に対して、モデルクラスのシーケンシャルなラデマッハ複雑性にのみ依存するサンプルの複雑さで局所的な最大値に確実に収束するモデルベースアルゴリズム、Virtual Ascent with Online Model Learner(ViOL)を提案する。
その結果、有限またはスパースモデルクラスを持つ線形バンディットや2層ニューラルネットバンディットなど、いくつかの具体的設定において、グローバルまたは局所的な後悔境界が新たに現れた。
アルゴリズムの重要な洞察は、楽観主義が二層ニューラルネットワークモデルクラスでも過剰探索につながる可能性があることである。
一方、局所最大化への収束のために、モデルが実際の戻り値の勾配とヘッシアンのサイズを合理的に予測できるならば、仮想リターンを最大化することは十分である。
関連論文リスト
- The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Asymptotic Risk of Overparameterized Likelihood Models: Double Descent
Theory for Deep Neural Networks [12.132641563193582]
深層モデルを含む可視性モデルに対する一般クラスのリスクについて検討する。
並列深層ニューラルネットワークやアンサンブル学習など,いくつかの明示的なモデルが我々の理論と一致していることを示す。
論文 参考訳(メタデータ) (2021-02-28T13:02:08Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Learning with tree tensor networks: complexity estimates and model
selection [33.10033799230797]
経験的リスク最小化フレームワークを用いて,木テンソルネットワークの複雑性に基づくモデル選択法を解析する。
我々の戦略は、ソボレフ空間やベソフ空間を含む幅広い滑らか度クラスに適応するミニマックスであることが示される。
論文 参考訳(メタデータ) (2020-07-02T14:52:08Z) - Learning of Discrete Graphical Models with Neural Networks [15.171938155576566]
グラフィカルモデル学習のためのニューラルネットベースのアルゴリズムNeurISEを紹介する。
NeurISEは、真のモデルのエネルギー関数が高次であるとき、GRISEのより良い代替品であると考えられている。
また、実モデルの全エネルギー関数に対するニューラルネット表現の学習に使用できるNeurISEの変種を示す。
論文 参考訳(メタデータ) (2020-06-21T23:34:01Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。