論文の概要: Deep Radial-Basis Value Functions for Continuous Control
- arxiv url: http://arxiv.org/abs/2002.01883v2
- Date: Sun, 14 Mar 2021 01:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 20:43:27.545368
- Title: Deep Radial-Basis Value Functions for Continuous Control
- Title(参考訳): 連続制御のためのdeep radial-basis値関数
- Authors: Kavosh Asadi, Neev Parikh, Ronald E. Parr, George D. Konidaris,
Michael L. Littman
- Abstract要約: 本稿では,放射基底関数(RBF)の出力層を持つディープネットワークを用いて学習した値関数について紹介する。
深部RBVFに対する作用値の最大値は、容易に正確に近似できることを示す。
我々は,エージェントに深いRBVFを付与することにより,標準的なDQNアルゴリズムを連続制御に拡張する。
- 参考スコア(独自算出の注目度): 20.715732858790705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A core operation in reinforcement learning (RL) is finding an action that is
optimal with respect to a learned value function. This operation is often
challenging when the learned value function takes continuous actions as input.
We introduce deep radial-basis value functions (RBVFs): value functions learned
using a deep network with a radial-basis function (RBF) output layer. We show
that the maximum action-value with respect to a deep RBVF can be approximated
easily and accurately. Moreover, deep RBVFs can represent any true value
function owing to their support for universal function approximation. We extend
the standard DQN algorithm to continuous control by endowing the agent with a
deep RBVF. We show that the resultant agent, called RBF-DQN, significantly
outperforms value-function-only baselines, and is competitive with
state-of-the-art actor-critic algorithms.
- Abstract(参考訳): 強化学習(RL)の中核となる操作は、学習値関数に対して最適な行動を見つけることである。
この操作は、学習値関数が連続的なアクションを入力として取る場合、しばしば難しい。
本稿では,放射基底関数(RBF)の出力層を持つディープネットワークを用いて学習した値関数について紹介する。
深部RBVFに対する作用値の最大値は、容易に正確に近似できることを示す。
さらに、深いRBVFは、普遍関数近似をサポートするため、真の値関数を表現できる。
エージェントに深いRBVFを付与することにより、標準的なDQNアルゴリズムを連続制御に拡張する。
RBF-DQNと呼ばれる結果のエージェントは、値関数のみのベースラインを著しく上回り、最先端のアクター批判アルゴリズムと競合することを示す。
関連論文リスト
- Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Active Nearest Neighbor Regression Through Delaunay Refinement [79.93030583257597]
近接回帰に基づく能動関数近似アルゴリズムを提案する。
我々のActive Nearest Neighbor Regressor (ANNR) は計算幾何学の Voronoi-Delaunay フレームワークに頼り、空間を一定の関数値のセルに分割する。
論文 参考訳(メタデータ) (2022-06-16T10:24:03Z) - Value Activation for Bias Alleviation: Generalized-activated Deep Double
Deterministic Policy Gradients [11.545991873249564]
深層強化学習(DRL)における値関数を正確に推定することは不可欠である。
既存のアクター批判的手法は、過小評価バイアスまたは過大評価バイアスにより、多かれ少なかれ悩まされる。
本稿では、より優れた値推定のための重み付けとして、非減少関数、すなわちアクティベーション関数を用いる一般化活性化重み演算子を提案する。
論文 参考訳(メタデータ) (2021-12-21T13:45:40Z) - Testing Surrogate-Based Optimization with the Fortified Branin-Hoo
Extended to Four Dimensions [0.0]
本稿では,Branin-Hoo関数の強化がサロゲート最適化に及ぼす影響について検討する。
その結果, 通常の関数と要塞化された関数との差は, 4次元関数に対してはるかに顕著であった。
論文 参考訳(メタデータ) (2021-07-16T17:56:32Z) - A Unified Off-Policy Evaluation Approach for General Value Function [131.45028999325797]
一般価値関数(GVF)は、強化学習(RL)における予測的知識と振り返り的知識の両方を表現する強力なツールである。
本稿では,GVF評価のためのGenTDと呼ばれる新しいアルゴリズムを提案する。
我々は、GenTDが単一の標準スカラー値関数と同じくらい効率的に複数の相互関連多次元GVFを学習することを示す。
論文 参考訳(メタデータ) (2021-07-06T16:20:34Z) - Compressing Deep ODE-Nets using Basis Function Expansions [105.05435207079759]
重みの定式化を基底関数の線形結合を用いた連続深度関数とみなす。
この観点では、ほぼ最先端の性能を維持しながら、再トレーニングすることなく、ベースの変化によって重みを圧縮することができる。
これにより、推論時間とメモリフットプリントの両方が削減され、計算環境間の高速で厳密な適応が可能となる。
論文 参考訳(メタデータ) (2021-06-21T03:04:51Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Activation functions are not needed: the ratio net [3.9636371287541086]
本稿では,新しい関数近似器の設計に焦点をあてる。
新しいアクティベーション関数やカーネル関数を設計する代わりに、新しい提案されたネットワークは分数形式を使用する。
その結果、ほとんどの場合、比率ネットはより速く収束し、分類とRBFの両方を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-05-14T01:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。