論文の概要: A Quadratic Actor Network for Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.06617v1
- Date: Thu, 11 Mar 2021 11:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 09:52:00.627928
- Title: A Quadratic Actor Network for Model-Free Reinforcement Learning
- Title(参考訳): モデルレス強化学習のための擬似アクターネットワーク
- Authors: Matthias Weissenbacher and Yoshinobu Kawahara
- Abstract要約: モデルなしアクター・クリティカル強化学習における2次ニューロンのポリシーネットワークへの組み入れについて論じる。
いくつかのMuJoCo連続制御タスクで経験的な実験を行い、ポリシーネットワークに2次ニューロンを追加すると、より少ないパラメータを許容しながらベースラインを上回ります。
- 参考スコア(独自算出の注目度): 9.848252984349601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we discuss the incorporation of quadratic neurons into policy
networks in the context of model-free actor-critic reinforcement learning.
Quadratic neurons admit an explicit quadratic function approximation in
contrast to conventional approaches where the the non-linearity is induced by
the activation functions. We perform empiric experiments on several MuJoCo
continuous control tasks and find that when quadratic neurons are added to MLP
policy networks those outperform the baseline MLP whilst admitting a smaller
number of parameters. The top returned reward is in average increased by
$5.8\%$ while being about $21\%$ more sample efficient. Moreover, it can
maintain its advantage against added action and observation noise.
- Abstract(参考訳): 本稿では,モデルフリーなアクタ-クリティック強化学習の文脈で,二次ニューロンの政策ネットワークへの取り込みについて論じる。
二次ニューロンは、非線型性が活性化関数によって誘導される従来のアプローチとは対照的に、明示的な二次関数近似を許容する。
複数の MuJoCo 連続制御タスクの実証実験を行い、MLP ポリシネットワークに二次ニューロンを追加すると、パラメータの数が少ない間にベースライン MLP を上回ります。
返されたトップ報酬は平均で$5.8\%$増加し、サンプル効率は約$221\%$です。
さらに、追加の動作や観測ノイズに対する利点を維持できる。
関連論文リスト
- Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - One Neuron Saved Is One Neuron Earned: On Parametric Efficiency of
Quadratic Networks [21.5187335186035]
二次ネットワークがパラメトリック効率を享受していることを示し、それによって二次ネットワークの優れた性能が本質的な表現能力に起因することを確かめる。
バロン空間の観点からは、次元自由誤差で二次ネットワークで近似できる函数空間が存在することを示す。
論文 参考訳(メタデータ) (2023-03-11T05:32:18Z) - ESCHER: Eschewing Importance Sampling in Games by Computing a History
Value Function to Estimate Regret [97.73233271730616]
超大型ゲームにおけるナッシュ均衡の近似手法 : ニューラルネットワークを用いて近似最適ポリシー(戦略)を学習する
DREAMは,モンテカルロCFR(MCCFR)から受け継がれた重要なサンプリング項により,極めて高いばらつきを有すると推定された後悔のターゲット上で,ニューラルネットワークを訓練する。
ESCHERの深層学習バージョンは、DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており、ゲームサイズが大きくなるにつれて、その違いは劇的になる。
論文 参考訳(メタデータ) (2022-06-08T18:43:45Z) - Revisiting Gaussian Neurons for Online Clustering with Unknown Number of
Clusters [0.0]
参照するクラスタ数の最大限のオンラインクラスタリングを行う、新しいローカルラーニングルールが提示される。
実験結果は,学習パラメータの安定性を多数のトレーニングサンプルで実証した。
論文 参考訳(メタデータ) (2022-05-02T14:01:40Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Otimizacao de pesos e funcoes de ativacao de redes neurais aplicadas na
previsao de series temporais [0.0]
本稿では,ニューラルネットワークにおける自由パラメータ非対称活性化関数群の利用を提案する。
定義された活性化関数の族は普遍近似定理の要求を満たすことを示す。
ニューラルネットワークの処理ユニット間の接続の重み付けと自由パラメータを用いたこの活性化関数系のグローバル最適化手法を用いる。
論文 参考訳(メタデータ) (2021-07-29T23:32:15Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文 参考訳(メタデータ) (2020-10-08T07:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。