論文の概要: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
- arxiv url: http://arxiv.org/abs/2412.06390v1
- Date: Mon, 09 Dec 2024 11:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:14.592105
- Title: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
- Title(参考訳): エッジ遅延Deep Deterministic Policy Gradient:エッジシナリオの効率的な継続的制御
- Authors: Alberto Sinigaglia, Niccolò Turcato, Ruggero Carli, Gian Antonio Susto,
- Abstract要約: 我々はEdge Delayed Deep Deterministic Policy Gradient (EdgeD3)と呼ばれるエッジシナリオに適した新しい強化学習アルゴリズムを導入する。
本研究では,エッジ遅延Deep Deterministic Policy Gradient (EdgeD3)と呼ばれるエッジシナリオに適した新しい強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.446048322940114
- License:
- Abstract: Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.
- Abstract(参考訳): 深層強化学習は、高次元設定で複雑なポリシーを学ぶ能力によって、注目を集めている。
近年の進歩は、Q-ラーニングアルゴリズムを通じて最適なポリシーを学ぶために、デュアルネットワークアーキテクチャを利用している。
しかし、このアプローチには、学習過程を妨害し、結果として得られるポリシーの性能を低下させる過大評価バイアスなど、顕著な欠点がある。
これを解決するために、複数のQ-関数を用いることで過大評価バイアスを軽減する新しいアルゴリズムが開発された。
プライバシーを優先するエッジシナリオは、最近注目されている。
これらの設定では、限られた計算リソースは複雑な機械学習アプローチに重大な課題を生じさせ、アルゴリズムの効率をパフォーマンスに欠かせないものにしている。
本研究では,エッジ遅延Deep Deterministic Policy Gradient (EdgeD3)と呼ばれるエッジシナリオに適した新しい強化学習アルゴリズムを提案する。
EdgeD3は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを強化し、同じメモリ使用量を維持しながら、GPU(Graphics Process Unit)時間を25\%削減して、大幅なパフォーマンス向上を実現している。
さらに、EdgeD3は、様々なベンチマークにおける最先端メソッドのパフォーマンスを一貫して一致または上回っている。
関連論文リスト
- Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - Off-Policy Deep Reinforcement Learning Algorithms for Handling Various
Robotic Manipulator Tasks [0.0]
本研究では,Fetchロボットマニピュレータの訓練にDDPG,TD3,SACの3つの強化学習アルゴリズムを用いた。
これらのアルゴリズムはすべて非政治的であり、ポリシーと値関数の両方を最適化することで、彼らの望ましい目標を達成することができる。
論文 参考訳(メタデータ) (2022-12-11T18:25:24Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-01-15T20:00:26Z) - AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文 参考訳(メタデータ) (2021-11-12T15:46:19Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Learning the Step-size Policy for the Limited-Memory
Broyden-Fletcher-Goldfarb-Shanno Algorithm [3.7470451129384825]
本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。
入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。
ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
論文 参考訳(メタデータ) (2020-10-03T09:34:03Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。