論文の概要: Theoretically Principled Deep RL Acceleration via Nearest Neighbor
Function Approximation
- arxiv url: http://arxiv.org/abs/2110.04422v1
- Date: Sat, 9 Oct 2021 00:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:21:09.419079
- Title: Theoretically Principled Deep RL Acceleration via Nearest Neighbor
Function Approximation
- Title(参考訳): 近接関数近似による理論的原理付き深層rl加速
- Authors: Junhong Shen, Lin F. Yang
- Abstract要約: NN近似器は過去の観測のロールアウトを用いてアクション値を推定する。
古典的制御とMuJoCo移動タスクの実験により、NN加速剤はベースライン剤よりも高い試料効率と安定性が得られることが示された。
- 参考スコア(独自算出の注目度): 25.915119322218928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep reinforcement learning (RL) has achieved remarkable empirical
success by integrating deep neural networks into RL frameworks. However, these
algorithms often require a large number of training samples and admit little
theoretical understanding. To mitigate these issues, we propose a theoretically
principled nearest neighbor (NN) function approximator that can improve the
value networks in deep RL methods. Inspired by human similarity judgments, the
NN approximator estimates the action values using rollouts on past observations
and can provably obtain a small regret bound that depends only on the intrinsic
complexity of the environment. We present (1) Nearest Neighbor Actor-Critic
(NNAC), an online policy gradient algorithm that demonstrates the practicality
of combining function approximation with deep RL, and (2) a plug-and-play NN
update module that aids the training of existing deep RL methods. Experiments
on classical control and MuJoCo locomotion tasks show that the NN-accelerated
agents achieve higher sample efficiency and stability than the baseline agents.
Based on its theoretical benefits, we believe that the NN approximator can be
further applied to other complex domains to speed-up learning.
- Abstract(参考訳): 近年、深層ニューラルネットワークをRLフレームワークに統合することで、深層強化学習(RL)は目覚ましい成功を収めている。
しかし、これらのアルゴリズムは、多くのトレーニングサンプルを必要とし、理論的な理解がほとんどない。
これらの問題を緩和するため,提案手法では,深部RL法における値ネットワークを改善することができる理論上,近接関数近似器を提案する。
NN近似器は,人間の類似性判定にインスパイアされ,過去の観測からロールアウトを用いて行動値を推定し,環境固有の複雑さにのみ依存する小さな後悔境界を確実に得る。
本稿では,1) 関数近似と深部RLを併用する実用性を示すオンラインポリシー勾配アルゴリズムであるNearest Neighbor Actor-Critic (NNAC) と,2) 既存の深部RL法のトレーニングを支援するプラグアンドプレイNN更新モジュールを提案する。
古典的制御とMuJoCo移動タスクの実験により、NN加速剤はベースライン剤よりも高い試料効率と安定性が得られることが示された。
その理論的利点に基づき、NN近似器は学習の高速化のために他の複雑な領域にも適用できると考えている。
関連論文リスト
- Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training [30.452060061499523]
本稿では、勾配推定における計算およびメモリ要求を軽減するために、LR法を近似する手法を提案する。
ニューラルネットワークトレーニングにおける近似手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-03-18T23:23:50Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Accelerated Linearized Laplace Approximation for Bayesian Deep Learning [34.81292720605279]
ニューラルタンジェントカーネル(NTK)に対するNystrom近似を開発し、LLAを加速する。
我々の手法は、フォワードモード自動微分のための人気のあるディープラーニングライブラリの能力から恩恵を受ける。
私たちの方法では、視覚変換器のようなアーキテクチャまでスケールアップできます。
論文 参考訳(メタデータ) (2022-10-23T07:49:03Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。