Fugu-MT 論文翻訳(概要): Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

論文の概要: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios

arxiv url: http://arxiv.org/abs/2412.06390v1
Date: Mon, 09 Dec 2024 11:17:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.322753
Title: Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios
Title（参考訳）: エッジ遅延Deep Deterministic Policy Gradient:エッジシナリオの効率的な継続的制御
Authors: Alberto Sinigaglia, Niccolò Turcato, Ruggero Carli, Gian Antonio Susto,
Abstract要約: 我々はEdge Delayed Deep Deterministic Policy Gradient (EdgeD3)と呼ばれるエッジシナリオに適した新しい強化学習アルゴリズムを導入する。本研究では,エッジ遅延Deep Deterministic Policy Gradient (EdgeD3)と呼ばれるエッジシナリオに適した新しい強化学習アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 5.446048322940114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Reinforcement Learning is gaining increasing attention thanks to its capability to learn complex policies in high-dimensional settings. Recent advancements utilize a dual-network architecture to learn optimal policies through the Q-learning algorithm. However, this approach has notable drawbacks, such as an overestimation bias that can disrupt the learning process and degrade the performance of the resulting policy. To address this, novel algorithms have been developed that mitigate overestimation bias by employing multiple Q-functions. Edge scenarios, which prioritize privacy, have recently gained prominence. In these settings, limited computational resources pose a significant challenge for complex Machine Learning approaches, making the efficiency of algorithms crucial for their performance. In this work, we introduce a novel Reinforcement Learning algorithm tailored for edge scenarios, called Edge Delayed Deep Deterministic Policy Gradient (EdgeD3). EdgeD3 enhances the Deep Deterministic Policy Gradient (DDPG) algorithm, achieving significantly improved performance with $25\%$ less Graphics Process Unit (GPU) time while maintaining the same memory usage. Additionally, EdgeD3 consistently matches or surpasses the performance of state-of-the-art methods across various benchmarks, all while using $30\%$ fewer computational resources and requiring $30\%$ less memory.
Abstract（参考訳）: 深層強化学習は、高次元設定で複雑なポリシーを学ぶ能力によって、注目を集めている。近年の進歩は、Q-ラーニングアルゴリズムを通じて最適なポリシーを学ぶために、デュアルネットワークアーキテクチャを利用している。しかし、このアプローチには、学習過程を妨害し、結果として得られるポリシーの性能を低下させる過大評価バイアスなど、顕著な欠点がある。これを解決するために、複数のQ-関数を用いることで過大評価バイアスを軽減する新しいアルゴリズムが開発された。プライバシーを優先するエッジシナリオは、最近注目されている。これらの設定では、限られた計算リソースは複雑な機械学習アプローチに重大な課題を生じさせ、アルゴリズムの効率をパフォーマンスに欠かせないものにしている。本研究では,エッジ遅延Deep Deterministic Policy Gradient (EdgeD3)と呼ばれるエッジシナリオに適した新しい強化学習アルゴリズムを提案する。 EdgeD3は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを強化し、同じメモリ使用量を維持しながら、GPU(Graphics Process Unit)時間を25\%削減して、大幅なパフォーマンス向上を実現している。さらに、EdgeD3は、様々なベンチマークにおける最先端メソッドのパフォーマンスを一貫して一致または上回っている。

関連論文リスト

Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文参考訳（メタデータ） (2024-11-03T07:01:13Z)
Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。 $L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文参考訳（メタデータ） (2024-03-11T10:14:06Z)
ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。 Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文参考訳（メタデータ） (2023-06-02T11:37:22Z)
Off-Policy Deep Reinforcement Learning Algorithms for Handling Various Robotic Manipulator Tasks [0.0]
本研究では,Fetchロボットマニピュレータの訓練にDDPG,TD3,SACの3つの強化学習アルゴリズムを用いた。これらのアルゴリズムはすべて非政治的であり、ポリシーと値関数の両方を最適化することで、彼らの望ましい目標を達成することができる。
論文参考訳（メタデータ） (2022-12-11T18:25:24Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。 RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文参考訳（メタデータ） (2022-01-15T20:00:26Z)
AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。 OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文参考訳（メタデータ） (2021-11-12T15:46:19Z)
Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-01-21T21:50:10Z)
Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-08T00:43:04Z)
Learning the Step-size Policy for the Limited-Memory Broyden-Fletcher-Goldfarb-Shanno Algorithm [3.7470451129384825]
本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
論文参考訳（メタデータ） (2020-10-03T09:34:03Z)
Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。 PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文参考訳（メタデータ） (2020-07-31T01:02:57Z)
Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。目的はオンラインで発見されるため、時間とともに変化に適応することができる。 Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文参考訳（メタデータ） (2020-07-16T16:17:09Z)
WD3: Taming the Estimation Bias in Deep Reinforcement Learning [7.29018671106362]
我々はTD3アルゴリズムが軽度の仮定で過小評価バイアスをもたらすことを示す。本稿では, 推定バイアスを除去できる, アンダーライン重み付きアンダーライン重み付きアンダーラインDeepアンダーライン決定性ポリシー勾配 (WD3) を提案する。
論文参考訳（メタデータ） (2020-06-18T01:28:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。