Fugu-MT 論文翻訳(概要): A Quadratic Actor Network for Model-Free Reinforcement Learning

論文の概要: A Quadratic Actor Network for Model-Free Reinforcement Learning

arxiv url: http://arxiv.org/abs/2103.06617v1
Date: Thu, 11 Mar 2021 11:36:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-13 09:52:00.627928
Title: A Quadratic Actor Network for Model-Free Reinforcement Learning
Title（参考訳）: モデルレス強化学習のための擬似アクターネットワーク
Authors: Matthias Weissenbacher and Yoshinobu Kawahara
Abstract要約: モデルなしアクター・クリティカル強化学習における2次ニューロンのポリシーネットワークへの組み入れについて論じる。いくつかのMuJoCo連続制御タスクで経験的な実験を行い、ポリシーネットワークに2次ニューロンを追加すると、より少ないパラメータを許容しながらベースラインを上回ります。
参考スコア（独自算出の注目度）: 9.848252984349601
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work we discuss the incorporation of quadratic neurons into policy networks in the context of model-free actor-critic reinforcement learning. Quadratic neurons admit an explicit quadratic function approximation in contrast to conventional approaches where the the non-linearity is induced by the activation functions. We perform empiric experiments on several MuJoCo continuous control tasks and find that when quadratic neurons are added to MLP policy networks those outperform the baseline MLP whilst admitting a smaller number of parameters. The top returned reward is in average increased by $5.8\%$ while being about $21\%$ more sample efficient. Moreover, it can maintain its advantage against added action and observation noise.
Abstract（参考訳）: 本稿では,モデルフリーなアクタ-クリティック強化学習の文脈で,二次ニューロンの政策ネットワークへの取り込みについて論じる。二次ニューロンは、非線型性が活性化関数によって誘導される従来のアプローチとは対照的に、明示的な二次関数近似を許容する。複数の MuJoCo 連続制御タスクの実証実験を行い、MLP ポリシネットワークに二次ニューロンを追加すると、パラメータの数が少ない間にベースライン MLP を上回ります。返されたトップ報酬は平均で$5.8\%$増加し、サンプル効率は約$221\%$です。さらに、追加の動作や観測ノイズに対する利点を維持できる。

関連論文リスト

Developing Training Procedures for Piecewise-linear Spline Activation Functions in Neural Networks [0.0]
ニューラルネットワークにおける双対最適化のダイナミクスを探索する9つのトレーニング手法を提示・比較する。実験では、従来のReLUモデルと比較して、FNNでは94%低いエンドモデルエラー率、CNNでは51%低いレートを実現している。
論文参考訳（メタデータ） (2025-09-17T03:51:16Z)
Revisiting Feature Interactions from the Perspective of Quadratic Neural Networks for Click-through Rate Prediction [18.22390433596264]
二次ニューラルネットワーク(QNN)の観点からアダマール製品(HP)を再考する我々は,QNNが機能空間を拡大し,活性化関数に頼らずにスムーズな非線形近似を提供する能力を明らかにする。本稿では,CTR予測タスクに適した新しいニューロン形式QNN-alphaを提案する。
論文参考訳（メタデータ） (2025-05-23T15:04:16Z)
Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs [15.806503459642665]
強化学習を用いた大規模言語モデルの微調整のための新しいアルゴリズムを提案する。オフ政治体制における正と負の例を適切に活用することで、テスト時間精度とトレーニングデータの効率が同時に向上することを示す。この研究の結果として、REINFORCEのベースラインパラメータが、ネガティブな例の存在下でデータセット構成を定義する上で、重要かつ予期せぬ役割を担っていることが判明した。
論文参考訳（メタデータ） (2025-03-18T14:23:37Z)
Free-Knots Kolmogorov-Arnold Network: On the Analysis of Spline Knots and Advancing Stability [16.957071012748454]
Kolmogorov-Arnold Neural Networks (KAN)は、機械学習コミュニティにおいて大きな注目を集めている。しかしながら、それらの実装はトレーニングの安定性が悪く、重いトレーニング可能なパラメータに悩まされることが多い。本研究では, スプラインノットのレンズによるカンの挙動を解析し, B-スプライン系カンの結び目数に対する上下境界を導出する。
論文参考訳（メタデータ） (2025-01-16T04:12:05Z)
Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文参考訳（メタデータ） (2024-03-31T11:39:11Z)
ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。 ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文参考訳（メタデータ） (2023-07-02T21:46:30Z)
Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文参考訳（メタデータ） (2023-06-09T18:40:55Z)
One Neuron Saved Is One Neuron Earned: On Parametric Efficiency of Quadratic Networks [21.5187335186035]
二次ネットワークがパラメトリック効率を享受していることを示し、それによって二次ネットワークの優れた性能が本質的な表現能力に起因することを確かめる。バロン空間の観点からは、次元自由誤差で二次ネットワークで近似できる函数空間が存在することを示す。
論文参考訳（メタデータ） (2023-03-11T05:32:18Z)
ESCHER: Eschewing Importance Sampling in Games by Computing a History Value Function to Estimate Regret [97.73233271730616]
超大型ゲームにおけるナッシュ均衡の近似手法 : ニューラルネットワークを用いて近似最適ポリシー(戦略)を学習する DREAMは,モンテカルロCFR(MCCFR)から受け継がれた重要なサンプリング項により,極めて高いばらつきを有すると推定された後悔のターゲット上で,ニューラルネットワークを訓練する。 ESCHERの深層学習バージョンは、DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており、ゲームサイズが大きくなるにつれて、その違いは劇的になる。
論文参考訳（メタデータ） (2022-06-08T18:43:45Z)
Revisiting Gaussian Neurons for Online Clustering with Unknown Number of Clusters [0.0]
参照するクラスタ数の最大限のオンラインクラスタリングを行う、新しいローカルラーニングルールが提示される。実験結果は,学習パラメータの安定性を多数のトレーニングサンプルで実証した。
論文参考訳（メタデータ） (2022-05-02T14:01:40Z)
Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。神経性交流は,大域的最適政策をサブ線形速度で求める。
論文参考訳（メタデータ） (2021-12-27T06:09:50Z)
Otimizacao de pesos e funcoes de ativacao de redes neurais aplicadas na previsao de series temporais [0.0]
本稿では,ニューラルネットワークにおける自由パラメータ非対称活性化関数群の利用を提案する。定義された活性化関数の族は普遍近似定理の要求を満たすことを示す。ニューラルネットワークの処理ユニット間の接続の重み付けと自由パラメータを用いたこの活性化関数系のグローバル最適化手法を用いる。
論文参考訳（メタデータ） (2021-07-29T23:32:15Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。 MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文参考訳（メタデータ） (2021-02-15T08:19:05Z)
Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文参考訳（メタデータ） (2020-10-08T07:02:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。