論文の概要: Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning
Agents via Neural Architecture Search
- arxiv url: http://arxiv.org/abs/2012.13091v2
- Date: Fri, 25 Dec 2020 04:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:11:43.144434
- Title: Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning
Agents via Neural Architecture Search
- Title(参考訳): auto-agent-distiller:ニューラルネットワークによる高効率深層強化学習エージェントの開発
- Authors: Yonggan Fu, Zhongzhi Yu, Yongan Zhang, Yingyan Lin
- Abstract要約: 本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。
我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。
そこで我々は,教師エージェントのアクターと評論家の両方から知識を抽出し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
- 参考スコア(独自算出の注目度): 14.292072505007974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AlphaGo's astonishing performance has ignited an explosive interest in
developing deep reinforcement learning (DRL) for numerous real-world
applications, such as intelligent robotics. However, the often prohibitive
complexity of DRL stands at the odds with the required real-time control and
constrained resources in many DRL applications, limiting the great potential of
DRL powered intelligent devices. While substantial efforts have been devoted to
compressing other deep learning models, existing works barely touch the surface
of compressing DRL. In this work, we first identify that there exists an
optimal model size of DRL that can maximize both the test scores and
efficiency, motivating the need for task-specific DRL agents. We therefore
propose an Auto-Agent-Distiller (A2D) framework, which to our best knowledge is
the first neural architecture search (NAS) applied to DRL to automatically
search for the optimal DRL agents for various tasks that optimize both the test
scores and efficiency. Specifically, we demonstrate that vanilla NAS can easily
fail in searching for the optimal agents, due to its resulting high variance in
DRL training stability, and then develop a novel distillation mechanism to
distill the knowledge from both the teacher agent's actor and critic to
stabilize the searching process and improve the searched agents' optimality.
Extensive experiments and ablation studies consistently validate our findings
and the advantages and general applicability of our A2D, outperforming manually
designed DRL in both the test scores and efficiency. All the codes will be
released upon acceptance.
- Abstract(参考訳): AlphaGoの驚くべきパフォーマンスは、インテリジェントロボティクスのような多くの現実世界の応用のための深層強化学習(DRL)の開発に爆発的な関心を喚起した。
しかし、DRLのしばしば禁止される複雑さは、多くのDRLアプリケーションで要求されるリアルタイム制御と制約されたリソースに反し、DRL駆動のインテリジェントデバイスの大きな可能性を制限する。
他の深層学習モデルの圧縮に多大な努力が注がれているが、既存の研究はDRLの圧縮面にはほとんど触れていない。
そこで本研究では,テストスコアと効率の両方を最大化し,タスク固有のDRLエージェントの必要性を動機付ける,DRLの最適モデルサイズが存在することを最初に確認する。
そこで我々は,テストスコアと効率の両方を最適化する様々なタスクに対して最適なDRLエージェントを自動検索するためにDRLに適用された最初のニューラルアーキテクチャサーチ(NAS)であるAuto-Agent-Distiller (A2D)フレームワークを提案する。
具体的には,バニラNASはDRL訓練安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗することを示した上で,教師エージェントのアクターと評論家の両方からの知識を蒸留し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発した。
大規模な実験とアブレーション研究は、我々のA2Dの発見と利点と一般応用性を一貫して検証し、テストスコアと効率の両方で手作業で設計したDRLよりも優れています。
すべてのコードは受理時に解放される。
関連論文リスト
- Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。
DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。
本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文 参考訳(メタデータ) (2024-05-31T01:25:40Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Testing of Deep Reinforcement Learning Agents with Surrogate Models [10.243488468625786]
近年,Deep Reinforcement Learning (DRL) が研究コミュニティから注目を集めている。
本稿では,このようなエージェントを探索的に検証する手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T06:21:39Z) - A Comparison of Reinforcement Learning Frameworks for Software Testing
Tasks [14.22330197686511]
Deep Reinforcement Learning (DRL)は、ゲームテスト、回帰テスト、テストケースの優先順位付けといった複雑なテストタスクに成功している。
DRLフレームワークは、DRLアプリケーションの開発を容易にし、高速化するために、十分に保守された実装されたDRLアルゴリズムを提供する。
DRLフレームワークにおける実装アルゴリズムの有効性と性能を実証的に評価する研究はない。
論文 参考訳(メタデータ) (2022-08-25T14:52:16Z) - A Search-Based Testing Approach for Deep Reinforcement Learning Agents [1.1580916951856255]
本稿では、DRLエージェントのポリシーをテストするために、検索に基づく強化学習エージェント(STARLA)のテスト手法を提案する。
我々は、機械学習モデルと専用の遺伝的アルゴリズムを使用して、故障エピソードに対する探索を絞り込みます。
論文 参考訳(メタデータ) (2022-06-15T20:51:33Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - A3C-S: Automated Agent Accelerator Co-Search towards Efficient Deep
Reinforcement Learning [16.96187187108041]
本稿では,最適に整合したDRLエージェントとアクセルを自動的に共同検索する,A3C-S(Automated Agent Accelerator Co-Search)フレームワークを提案する。
我々の実験は、最先端技術よりもA3C-Sの方が優れていることを一貫して検証している。
論文 参考訳(メタデータ) (2021-06-11T18:56:44Z) - Maximum Entropy RL (Provably) Solves Some Robust RL Problems [94.80212602202518]
我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。
以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T18:45:48Z) - Efficient Reinforcement Learning Development with RLzoo [21.31425280231093]
既存のDeep Reinforcement Learning (DRL)ライブラリは、DRLエージェントのプロトタイピングを貧弱にサポートしている。
DRLエージェントの開発を効率化することを目的とした新しいDRLライブラリRLzooを紹介する。
論文 参考訳(メタデータ) (2020-09-18T06:18:49Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。