論文の概要: Reduce Computational Cost In Deep Reinforcement Learning Via Randomized Policy Learning
- arxiv url: http://arxiv.org/abs/2505.19054v1
- Date: Sun, 25 May 2025 09:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.870086
- Title: Reduce Computational Cost In Deep Reinforcement Learning Via Randomized Policy Learning
- Title(参考訳): ランダム化政策学習による深層強化学習における計算コストの削減
- Authors: Zhuochen Liu, Rahul Jain, Quan Nguyen,
- Abstract要約: 強化学習の最近の進歩は、ニューラルネットワークを活用して、さまざまな制御タスクにおける最先端のパフォーマンスを実現している。
これらの成功は、ディープニューラルネットワークのトレーニングには相当な時間とデータを必要とするため、大きな計算リソースのコストがかかることが多い。
本稿では,ランダム化されたニューラルネットワークを用いて,高い性能を維持しながら計算コストを大幅に削減するアクタ批判アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.559995591255811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in reinforcement learning (RL) have leveraged neural networks to achieve state-of-the-art performance across various control tasks. However, these successes often come at the cost of significant computational resources, as training deep neural networks requires substantial time and data. In this paper, we introduce an actor-critic algorithm that utilizes randomized neural networks to drastically reduce computational costs while maintaining strong performance. Despite its simple architecture, our method effectively solves a range of control problems, including the locomotion control of a highly dynamic 12-motor quadruped robot, and achieves results comparable to leading algorithms such as Proximal Policy Optimization (PPO). Notably, our approach does not outperform other algorithms in terms of sample efficnency but rather in terms of wall-clock training time. That is, although our algorithm requires more timesteps to converge to an optimal policy, the actual time required for training turns out to be lower.
- Abstract(参考訳): 強化学習(RL)の最近の進歩は、ニューラルネットワークを活用して、さまざまな制御タスクにおける最先端のパフォーマンスを実現している。
しかし、深層ニューラルネットワークのトレーニングには相当な時間とデータを必要とするため、これらの成功はしばしば計算資源のかなりのコストがかかる。
本稿では,ランダム化されたニューラルネットワークを用いて,高い性能を維持しながら計算コストを大幅に削減するアクタ批判アルゴリズムを提案する。
その単純なアーキテクチャにもかかわらず、非常にダイナミックな12基の四足ロボットの移動制御を含む様々な制御問題を効果的に解決し、PPO(Proximal Policy Optimization)のような先進的なアルゴリズムに匹敵する結果を得る。
特に,本手法は,サンプル効率において,ウォールクロックのトレーニング時間において,他のアルゴリズムよりも優れている。
つまり、我々のアルゴリズムは最適なポリシーに収束するためにより多くの時間ステップを必要とするが、訓練に必要な実際の時間は低いことが判明した。
関連論文リスト
- Research on Edge Computing and Cloud Collaborative Resource Scheduling Optimization Based on Deep Reinforcement Learning [11.657154571216234]
本研究では,深部強化学習(DRL)を用いたエッジクラウド協調コンピューティングにおける資源スケジューリング最適化の課題に対処する。
DRLに基づく提案手法は,タスク処理効率の向上,全体の処理時間削減,資源利用の向上,タスクマイグレーションの効果的制御を実現する。
論文 参考訳(メタデータ) (2025-02-26T03:05:11Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - HARL: Hierarchical Adaptive Reinforcement Learning Based Auto Scheduler
for Neural Networks [51.71682428015139]
効率的なテンソルプログラム探索のための強化学習に基づく自動スケジューリングシステムであるHARLを提案する。
HarLは、最先端のオートスケジューラと比較して、テンソル演算子の性能を22%改善し、探索速度を4.3倍改善する。
また、エンドツーエンドのニューラルネットワークでは、推論性能と探索速度も大幅に向上する。
論文 参考訳(メタデータ) (2022-11-21T04:15:27Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Deep Reinforcement Learning with Population-Coded Spiking Neural Network
for Continuous Control [0.0]
深層強化学習(DRL)を用いた深層批評家ネットワークと連携して訓練された集団符号化スパイキングアクターネットワーク(PopSAN)を提案する。
我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較し、連続的な制御を行った。
本研究はニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性の両方が重要である場合,我々のハイブリッドRLをディープラーニングの代替として提案する。
論文 参考訳(メタデータ) (2020-10-19T16:20:45Z) - PoPS: Policy Pruning and Shrinking for Deep Reinforcement Learning [16.269923100433232]
DRLモデルを高い性能で訓練するための,PoPS(Po Policy Pruning and Shrinking)と呼ばれる作業アルゴリズムを開発した。
PoPSは、トランスファーラーニングの力を利用する、新しい反復的なポリシープルーニングと縮小法に基づいている。
本稿では,一般的なCartpole環境,Lunar Lander環境,Pong環境,Pacman環境を用いて,PoPSの強い性能を示す実験を行った。
論文 参考訳(メタデータ) (2020-01-14T19:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。