論文の概要: Broad Critic Deep Actor Reinforcement Learning for Continuous Control
- arxiv url: http://arxiv.org/abs/2411.15806v1
- Date: Sun, 24 Nov 2024 12:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:16.032942
- Title: Broad Critic Deep Actor Reinforcement Learning for Continuous Control
- Title(参考訳): 連続制御のためのBroad Critic Deep Actor Reinforcement Learning
- Authors: Shiron Thalagala, Pak Kin Wong, Xiaozheng Wang,
- Abstract要約: アクター批判強化学習(RL)アルゴリズムのための新しいハイブリッドアーキテクチャを提案する。
提案したアーキテクチャは、広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合している。
提案アルゴリズムの有効性を2つの古典的連続制御タスクに適用することにより評価する。
- 参考スコア(独自算出の注目度): 5.440090782797941
- License:
- Abstract: In the domain of continuous control, deep reinforcement learning (DRL) demonstrates promising results. However, the dependence of DRL on deep neural networks (DNNs) results in the demand for extensive data and increased computational complexity. To address this issue, a novel hybrid architecture for actor-critic reinforcement learning (RL) algorithms is introduced. The proposed architecture integrates the broad learning system (BLS) with DNN, aiming to merge the strengths of both distinct architectural paradigms. Specifically, the critic network is implemented using BLS, while the actor network is constructed with a DNN. For the estimations of the critic network parameters, ridge regression is employed, and the parameters of the actor network are optimized through gradient descent. The effectiveness of the proposed algorithm is evaluated by applying it to two classic continuous control tasks, and its performance is compared with the widely recognized deep deterministic policy gradient (DDPG) algorithm. Numerical results show that the proposed algorithm is superior to the DDPG algorithm in terms of computational efficiency, along with an accelerated learning trajectory. Application of the proposed algorithm in other actor-critic RL algorithms is suggested for investigation in future studies.
- Abstract(参考訳): 連続制御の分野では、深層強化学習(DRL)が有望な結果を示す。
しかし、DNN(Deep Neural Network)へのDRLの依存は、広範なデータ要求と計算複雑性の増大をもたらす。
この問題に対処するため,アクター・クリティカル強化学習(RL)アルゴリズムのための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは広範学習システム(BLS)とDNNを統合し,両アーキテクチャパラダイムの長所を融合することを目的としている。
具体的には、批評家ネットワークをBLSで実装し、アクターネットワークをDNNで構築する。
批評家ネットワークパラメータの推定にはリッジ回帰を用い、アクターネットワークのパラメータは勾配降下により最適化される。
提案アルゴリズムの有効性を2つの古典的連続制御タスクに適用することにより評価し,その性能を広く認識されているDeep Deterministic Policy gradient (DDPG)アルゴリズムと比較した。
計算効率の面では,提案アルゴリズムがDDPGアルゴリズムよりも優れており,学習軌道の高速化が図られている。
提案アルゴリズムの他のアクター・クリティックRLアルゴリズムへの適用は,今後の研究において提案される。
関連論文リスト
- Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - DDPG-Driven Deep-Unfolding with Adaptive Depth for Channel Estimation
with Sparse Bayesian Learning [23.158142411929322]
まず,異なる入力に対して適応的な深さを持つDDPG(Deep Deterministic Policy gradient)駆動のディープアンフォールディングの枠組みを開発する。
具体的には,大規模マルチインプットマルチアウトプットシステムにおけるチャネル推定問題に対処するために,このフレームワークを用いる。
論文 参考訳(メタデータ) (2022-01-20T22:35:42Z) - Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-01-15T20:00:26Z) - On the Robustness of Controlled Deep Reinforcement Learning for Slice
Placement [0.8459686722437155]
我々は、純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムである2つのDeep Reinforcement Learningアルゴリズムを比較した。
評価結果から,提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化の場合に,より堅牢で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2021-08-05T10:24:33Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Solving Sparse Linear Inverse Problems in Communication Systems: A Deep
Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。
提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文 参考訳(メタデータ) (2020-10-29T06:32:53Z) - PoPS: Policy Pruning and Shrinking for Deep Reinforcement Learning [16.269923100433232]
DRLモデルを高い性能で訓練するための,PoPS(Po Policy Pruning and Shrinking)と呼ばれる作業アルゴリズムを開発した。
PoPSは、トランスファーラーニングの力を利用する、新しい反復的なポリシープルーニングと縮小法に基づいている。
本稿では,一般的なCartpole環境,Lunar Lander環境,Pong環境,Pacman環境を用いて,PoPSの強い性能を示す実験を行った。
論文 参考訳(メタデータ) (2020-01-14T19:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。