論文の概要: A Quadratic Actor Network for Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.06617v1
- Date: Thu, 11 Mar 2021 11:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 09:52:00.627928
- Title: A Quadratic Actor Network for Model-Free Reinforcement Learning
- Title(参考訳): モデルレス強化学習のための擬似アクターネットワーク
- Authors: Matthias Weissenbacher and Yoshinobu Kawahara
- Abstract要約: モデルなしアクター・クリティカル強化学習における2次ニューロンのポリシーネットワークへの組み入れについて論じる。
いくつかのMuJoCo連続制御タスクで経験的な実験を行い、ポリシーネットワークに2次ニューロンを追加すると、より少ないパラメータを許容しながらベースラインを上回ります。
- 参考スコア(独自算出の注目度): 9.848252984349601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we discuss the incorporation of quadratic neurons into policy
networks in the context of model-free actor-critic reinforcement learning.
Quadratic neurons admit an explicit quadratic function approximation in
contrast to conventional approaches where the the non-linearity is induced by
the activation functions. We perform empiric experiments on several MuJoCo
continuous control tasks and find that when quadratic neurons are added to MLP
policy networks those outperform the baseline MLP whilst admitting a smaller
number of parameters. The top returned reward is in average increased by
$5.8\%$ while being about $21\%$ more sample efficient. Moreover, it can
maintain its advantage against added action and observation noise.
- Abstract(参考訳): 本稿では,モデルフリーなアクタ-クリティック強化学習の文脈で,二次ニューロンの政策ネットワークへの取り込みについて論じる。
二次ニューロンは、非線型性が活性化関数によって誘導される従来のアプローチとは対照的に、明示的な二次関数近似を許容する。
複数の MuJoCo 連続制御タスクの実証実験を行い、MLP ポリシネットワークに二次ニューロンを追加すると、パラメータの数が少ない間にベースライン MLP を上回ります。
返されたトップ報酬は平均で$5.8\%$増加し、サンプル効率は約$221\%$です。
さらに、追加の動作や観測ノイズに対する利点を維持できる。
関連論文リスト
- Learning a Diffusion Model Policy from Rewards via Q-Score Matching [99.7952627335176]
拡散モデルは、行動クローニングとオフライン強化学習においてアクターポリシーを表現するために一般的な選択肢となっている。
それまでの作業では、拡散モデルのスコアベース構造を活用できず、代わりに単純な行動クローニング用語を使用してアクターを訓練した。
本稿では,Q関数のスコアと行動勾配の関連構造を利用した拡散モデルポリシーの学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - One Neuron Saved Is One Neuron Earned: On Parametric Efficiency of
Quadratic Networks [21.5187335186035]
二次ネットワークがパラメトリック効率を享受していることを示し、それによって二次ネットワークの優れた性能が本質的な表現能力に起因することを確かめる。
バロン空間の観点からは、次元自由誤差で二次ネットワークで近似できる函数空間が存在することを示す。
論文 参考訳(メタデータ) (2023-03-11T05:32:18Z) - ESCHER: Eschewing Importance Sampling in Games by Computing a History
Value Function to Estimate Regret [97.73233271730616]
超大型ゲームにおけるナッシュ均衡の近似手法 : ニューラルネットワークを用いて近似最適ポリシー(戦略)を学習する
DREAMは,モンテカルロCFR(MCCFR)から受け継がれた重要なサンプリング項により,極めて高いばらつきを有すると推定された後悔のターゲット上で,ニューラルネットワークを訓練する。
ESCHERの深層学習バージョンは、DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており、ゲームサイズが大きくなるにつれて、その違いは劇的になる。
論文 参考訳(メタデータ) (2022-06-08T18:43:45Z) - Revisiting Gaussian Neurons for Online Clustering with Unknown Number of
Clusters [0.0]
参照するクラスタ数の最大限のオンラインクラスタリングを行う、新しいローカルラーニングルールが提示される。
実験結果は,学習パラメータの安定性を多数のトレーニングサンプルで実証した。
論文 参考訳(メタデータ) (2022-05-02T14:01:40Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of
Representation Learning in Actor-Critic [147.9007729657767]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Otimizacao de pesos e funcoes de ativacao de redes neurais aplicadas na
previsao de series temporais [0.0]
本稿では,ニューラルネットワークにおける自由パラメータ非対称活性化関数群の利用を提案する。
定義された活性化関数の族は普遍近似定理の要求を満たすことを示す。
ニューラルネットワークの処理ユニット間の接続の重み付けと自由パラメータを用いたこの活性化関数系のグローバル最適化手法を用いる。
論文 参考訳(メタデータ) (2021-07-29T23:32:15Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。