論文の概要: HyperPPO: A scalable method for finding small policies for robotic
control
- arxiv url: http://arxiv.org/abs/2309.16663v1
- Date: Thu, 28 Sep 2023 17:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 12:44:16.911787
- Title: HyperPPO: A scalable method for finding small policies for robotic
control
- Title(参考訳): HyperPPO:ロボット制御のための小さなポリシーを見つけるためのスケーラブルな方法
- Authors: Shashank Hegde, Zhehui Huang and Gaurav S. Sukhatme
- Abstract要約: HyperPPOは、複数のニューラルネットワークの重みを同時に推定する、政治上の強化学習アルゴリズムである。
提案手法は,高パフォーマンスなポリシーを符号化していない一般用ネットワークよりもはるかに小さいネットワークの重みを推定する。
我々は、HyperPPOが見積もる神経政策が、Crazyflie2.1のクアドローターを分散制御できることを示した。
- 参考スコア(独自算出の注目度): 14.789594427174052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models with fewer parameters are necessary for the neural control of
memory-limited, performant robots. Finding these smaller neural network
architectures can be time-consuming. We propose HyperPPO, an on-policy
reinforcement learning algorithm that utilizes graph hypernetworks to estimate
the weights of multiple neural architectures simultaneously. Our method
estimates weights for networks that are much smaller than those in common-use
networks yet encode highly performant policies. We obtain multiple trained
policies at the same time while maintaining sample efficiency and provide the
user the choice of picking a network architecture that satisfies their
computational constraints. We show that our method scales well - more training
resources produce faster convergence to higher-performing architectures. We
demonstrate that the neural policies estimated by HyperPPO are capable of
decentralized control of a Crazyflie2.1 quadrotor. Website:
https://sites.google.com/usc.edu/hyperppo
- Abstract(参考訳): 少ないパラメータを持つモデルは、メモリ制限された高性能ロボットの神経制御に必要である。
これらの小さなニューラルネットワークアーキテクチャを見つけるには時間がかかる。
グラフハイパーネットを利用して複数のニューラルアーキテクチャの重みを同時に推定する,オンライン強化学習アルゴリズムHyperPPOを提案する。
提案手法は,高パフォーマンスポリシをエンコードしながら,汎用ネットワークよりもはるかに小さいネットワークの重み付けを推定する。
サンプル効率を維持しながら、同時に複数のトレーニング済みポリシを取得し、計算制約を満たすネットワークアーキテクチャを選択する選択をユーザに提供します。
より多くのトレーニングリソースが、より高いパフォーマンスのアーキテクチャへのコンバージェンスをより早くします。
我々は、HyperPPOが見積もる神経政策が、Crazyflie2.1のクアドローターを分散制御できることを示した。
ウェブサイト:https://sites.google.com/usc.edu/hyperppo
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Neuroevolution of Recurrent Architectures on Control Tasks [3.04585143845864]
並列に並列な進化的アルゴリズムを実装し、19のOpenAI Gym状態に基づく強化学習制御タスクで実験を行う。
動的エージェントは, パラメータの桁数を桁違いに減らしながら, 勾配に基づくエージェントの性能に適合するか, 上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-03T16:29:18Z) - Low Rank Optimization for Efficient Deep Learning: Making A Balance
between Compact Architecture and Fast Training [36.85333789033387]
本稿では,効率的なディープラーニング技術のための低ランク最適化に焦点を当てる。
空間領域では、ディープニューラルネットワークは、ネットワークパラメータの低階近似によって圧縮される。
時間領域では、ネットワークパラメータをいくつかのサブスペースでトレーニングできるため、高速収束のための効率的なトレーニングが可能になる。
論文 参考訳(メタデータ) (2023-03-22T03:55:16Z) - Efficiently Learning Small Policies for Locomotion and Manipulation [12.340412143459869]
グラフハイパーネットワークを活用して、非政治強化学習で訓練されたグラフハイパーポリシーを学習する。
本手法は,任意の非政治強化学習アルゴリズムに付加可能であることを示す。
パラメータ数に対する制約を考慮し,最適なアーキテクチャを選択する方法を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:49:00Z) - Improving the sample-efficiency of neural architecture search with
reinforcement learning [0.0]
この作業では、Automated Machine Learning(AutoML)の領域にコントリビュートしたいと思っています。
我々の焦点は、最も有望な研究方向の一つ、強化学習である。
児童ネットワークの検証精度は、コントローラを訓練するための報奨信号として機能する。
我々は、これをより現代的で複雑なアルゴリズムであるPPOに修正することを提案する。
論文 参考訳(メタデータ) (2021-10-13T14:30:09Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Deep Reinforcement Learning with Population-Coded Spiking Neural Network
for Continuous Control [0.0]
深層強化学習(DRL)を用いた深層批評家ネットワークと連携して訓練された集団符号化スパイキングアクターネットワーク(PopSAN)を提案する。
我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較し、連続的な制御を行った。
本研究はニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性の両方が重要である場合,我々のハイブリッドRLをディープラーニングの代替として提案する。
論文 参考訳(メタデータ) (2020-10-19T16:20:45Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。