論文の概要: Refined Continuous Control of DDPG Actors via Parametrised Activation
- arxiv url: http://arxiv.org/abs/2006.02818v1
- Date: Thu, 4 Jun 2020 12:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:17:15.973341
- Title: Refined Continuous Control of DDPG Actors via Parametrised Activation
- Title(参考訳): パラメトリー活性化によるDDPGアクターの精製連続制御
- Authors: Mohammed Hossny, Julie Iskander, Mohammed Attia, Khaled Saleh
- Abstract要約: 提案手法により、強化学習アクターは、アクチュエータの応答関数の相違を許容するより堅牢な動作を生成できる。
これは、アクチュエータが負荷や環境との相互作用に応じて異なる応答関数を示す現実のシナリオで特に有用である。
- 参考スコア(独自算出の注目度): 3.32399229114419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose enhancing actor-critic reinforcement learning
agents by parameterising the final actor layer which produces the actions in
order to accommodate the behaviour discrepancy of different actuators, under
different load conditions during interaction with the environment. We propose
branching the action producing layer in the actor to learn the tuning parameter
controlling the activation layer (e.g. Tanh and Sigmoid). The learned
parameters are then used to create tailored activation functions for each
actuator. We ran experiments on three OpenAI Gym environments, i.e.
Pendulum-v0, LunarLanderContinuous-v2 and BipedalWalker-v2. Results have shown
an average of 23.15% and 33.80% increase in total episode reward of the
LunarLanderContinuous-v2 and BipedalWalker-v2 environments, respectively. There
was no significant improvement in Pendulum-v0 environment but the proposed
method produces a more stable actuation signal compared to the state-of-the-art
method. The proposed method allows the reinforcement learning actor to produce
more robust actions that accommodate the discrepancy in the actuators' response
functions. This is particularly useful for real life scenarios where actuators
exhibit different response functions depending on the load and the interaction
with the environment. This also simplifies the transfer learning problem by
fine tuning the parameterised activation layers instead of retraining the
entire policy every time an actuator is replaced. Finally, the proposed method
would allow better accommodation to biological actuators (e.g. muscles) in
biomechanical systems.
- Abstract(参考訳): 本稿では,各種アクチュエータの動作不一致に対応するための動作を生成する最終アクタ層を環境との相互作用時に異なる負荷条件下でパラメータ化することにより,アクタ-クリティック強化学習エージェントの強化を提案する。
本稿ではアクターのアクション生成層を分岐させてアクティベーション層を制御するチューニングパラメータ(TanhやSigmoidなど)を学習する。
学習したパラメータは、各アクチュエータ用に調整されたアクティベーション関数を作成するために使用される。
我々はOpenAI Gym環境(Pendulum-v0, LunarLanderContinuous-v2, BipedalWalker-v2)で実験を行った。
その結果、LunarLanderContinuous-v2とBipedalWalker-v2の合計エピソード報酬は平均23.15%、33.80%増加した。
Pendulum-v0環境には顕著な改善はなかったが,提案手法は最新技術に比べて安定な動作信号を生成する。
提案手法により,強化学習アクタはアクチュエータの応答関数の不一致に対応するより頑健な動作を生成することができる。
これは、アクチュエータが負荷や環境との相互作用によって異なる応答関数を示す実際のシナリオに特に有用である。
これはまた、アクチュエータが交換されるたびにポリシー全体をトレーニングする代わりに、パラメータ化されたアクティベーション層を微調整することで、転写学習問題を単純化する。
最後に、提案手法は生体力学系の生体アクチュエータ(例えば筋肉)により良い調節を可能にする。
関連論文リスト
- Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Adapt On-the-Go: Behavior Modulation for Single-Life Robot Deployment [92.48012013825988]
展開中のシナリオにオンザフライで適応する問題について検討する。
ROAM(RObust Autonomous Modulation)は,事前学習した行動の知覚値に基づくメカニズムを提案する。
ROAMによりロボットはシミュレーションと実Go1の四足歩行の両方の動的変化に迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-11-02T08:22:28Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Action Sensitivity Learning for Temporal Action Localization [35.65086250175736]
本稿では,時間的行動ローカライゼーションの課題に取り組むために,行動感性学習フレームワーク(ASL)を提案する。
まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。
各フレームの動作感度に基づいて、アクション認識フレームを正のペアとしてサンプリングし、アクション非関連フレームを除去する機能を強化するために、アクション感性コントラスト損失を設計する。
論文 参考訳(メタデータ) (2023-05-25T04:19:14Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - CARL: Controllable Agent with Reinforcement Learning for Quadruped
Locomotion [0.0]
CARLは、高レベルの指示で制御でき、動的環境に自然に反応できる4重結合剤である。
我々は、ジェネレーティブ・アドリラル・ネットワークを使用して、速度や方向などのハイレベルな制御を、オリジナルのアニメーションに対応するアクション・ディストリビューションに適応させる。
深部強化学習によるさらなる微調整により、エージェントは、スムーズな遷移を発生させながら、目に見えない外部摂動から回復することができる。
論文 参考訳(メタデータ) (2020-05-07T07:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。