論文の概要: Discovering Adaptable Symbolic Algorithms from Scratch
- arxiv url: http://arxiv.org/abs/2307.16890v2
- Date: Fri, 13 Oct 2023 20:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 22:56:17.179530
- Title: Discovering Adaptable Symbolic Algorithms from Scratch
- Title(参考訳): 適応型シンボリックアルゴリズムをスクラッチから発見する
- Authors: Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav
Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh
Boddeti, Jie Tan, Esteban Real
- Abstract要約: AutoRobotics-Zeroはゼロショット対応ポリシーをゼロから発見する。
モデルパラメータをチューニングし、推論アルゴリズムをオンザフライで変更するモジュールポリシーを進化させます。
以上の結果から,ARZは突然の環境変化に対して著しく堅牢であることが明らかとなった。
- 参考スコア(独自算出の注目度): 27.21385770429429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous robots deployed in the real world will need control policies that
rapidly adapt to environmental changes. To this end, we propose
AutoRobotics-Zero (ARZ), a method based on AutoML-Zero that discovers zero-shot
adaptable policies from scratch. In contrast to neural network adaptation
policies, where only model parameters are optimized, ARZ can build control
algorithms with the full expressive power of a linear register machine. We
evolve modular policies that tune their model parameters and alter their
inference algorithm on-the-fly to adapt to sudden environmental changes. We
demonstrate our method on a realistic simulated quadruped robot, for which we
evolve safe control policies that avoid falling when individual limbs suddenly
break. This is a challenging task in which two popular neural network baselines
fail. Finally, we conduct a detailed analysis of our method on a novel and
challenging non-stationary control task dubbed Cataclysmic Cartpole. Results
confirm our findings that ARZ is significantly more robust to sudden
environmental changes and can build simple, interpretable control policies.
- Abstract(参考訳): 現実世界に展開する自律ロボットは、環境の変化に迅速に適応する制御方針を必要とする。
そこで本研究では,ゼロショット適応型ポリシをゼロショットから検出するAutoML-Zero(ARZ)を提案する。
モデルパラメータのみを最適化するニューラルネットワーク適応ポリシーとは対照的に、ARZは線形レジスタマシンの完全な表現力を持つ制御アルゴリズムを構築することができる。
モデルパラメータを調整し、突然の環境変化に対応するために推論アルゴリズムをオンザフライで変更するモジュールポリシーを進化させます。
本手法を現実的な四足歩行ロボットに適用し,個々の手足が突如故障した場合の落下を避けるための安全制御ポリシーを進化させる。
これは、2つの人気のあるニューラルネットワークベースラインが失敗する難しいタスクです。
最後に,本手法の難解な非定常制御タスクである cataclysmic cartpole について詳細な解析を行った。
その結果,ARZは突然の環境変化に対して著しく堅牢であり,簡易かつ解釈可能な制御ポリシーを構築することができることがわかった。
関連論文リスト
- Task and Domain Adaptive Reinforcement Learning for Robot Control [0.34137115855910755]
課題や環境条件に応じて動的にポリシーを適応する新しい適応エージェントを提案する。
このエージェントはIsaacGym上に作られたカスタムで高度に並列化されたシミュレータを使って訓練されている。
実世界において、さまざまな課題を解くために、飛行飛行のためにゼロショット転送を行う。
論文 参考訳(メタデータ) (2024-04-29T14:02:02Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Adversarially Regularized Policy Learning Guided by Trajectory
Optimization [31.122262331980153]
本稿では,スムーズな制御ポリシーを学習するために,trajeCtory optimizAtion (VERONICA) でガイドされた適応正規化 pOlicy learNIng を提案する。
提案手法は,ニューラルポリシー学習のサンプル効率を向上し,各種障害に対するポリシーの堅牢性を高める。
論文 参考訳(メタデータ) (2021-09-16T00:02:11Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning [65.88200578485316]
本稿では,ロボットが動的変化に迅速に適応できるメタ学習手法を提案する。
提案手法は高雑音環境における動的変化への適応性を著しく改善する。
我々は、動的に変化しながら歩くことを学習する四足歩行ロボットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-03-02T22:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。