論文の概要: Latent Exploration for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.20065v2
- Date: Sun, 29 Oct 2023 16:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:52:13.143495
- Title: Latent Exploration for Reinforcement Learning
- Title(参考訳): 強化学習のための潜在探索
- Authors: Alberto Silvio Chiappa and Alessandro Marin Vargas and Ann Zixiang
Huang and Alexander Mathis
- Abstract要約: 強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
- 参考スコア(独自算出の注目度): 87.42776741119653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning, agents learn policies by exploring and interacting
with the environment. Due to the curse of dimensionality, learning policies
that map high-dimensional sensory input to motor output is particularly
challenging. During training, state of the art methods (SAC, PPO, etc.) explore
the environment by perturbing the actuation with independent Gaussian noise.
While this unstructured exploration has proven successful in numerous tasks, it
can be suboptimal for overactuated systems. When multiple actuators, such as
motors or muscles, drive behavior, uncorrelated perturbations risk diminishing
each other's effect, or modifying the behavior in a task-irrelevant way. While
solutions to introduce time correlation across action perturbations exist,
introducing correlation across actuators has been largely ignored. Here, we
propose LATent TIme-Correlated Exploration (Lattice), a method to inject
temporally-correlated noise into the latent state of the policy network, which
can be seamlessly integrated with on- and off-policy algorithms. We demonstrate
that the noisy actions generated by perturbing the network's activations can be
modeled as a multivariate Gaussian distribution with a full covariance matrix.
In the PyBullet locomotion tasks, Lattice-SAC achieves state of the art
results, and reaches 18% higher reward than unstructured exploration in the
Humanoid environment. In the musculoskeletal control environments of MyoSuite,
Lattice-PPO achieves higher reward in most reaching and object manipulation
tasks, while also finding more energy-efficient policies with reductions of
20-60%. Overall, we demonstrate the effectiveness of structured action noise in
time and actuator space for complex motor control tasks. The code is available
at: https://github.com/amathislab/lattice.
- Abstract(参考訳): 強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
次元の呪いのため、高次元の感覚入力を運動出力にマッピングする学習方針は特に困難である。
訓練中、最先端の芸術手法(sac、ppoなど)は、独立したガウス雑音でアクチュエーションを摂動させることで環境を探索する。
この非構造的な探索は多くのタスクで成功したが、過度に作動するシステムには最適である。
モーターや筋肉などの複数のアクチュエーターが動作を駆動する場合、非相関的な摂動は互いの効果を低下させるか、タスク非関連な方法で動作を変更する。
動作摂動間の時間相関を導入する解が存在するが、アクチュエータ間の相関を導入することは無視されている。
本稿では,政策ネットワークの潜在状態に時間相関ノイズを注入し,オン・オフ・ポリシーアルゴリズムとシームレスに統合する手法であるlatticeを提案する。
ネットワークのアクティベーションを摂動することで生じる雑音作用を,共分散行列を持つ多変量ガウス分布としてモデル化できることを実証する。
PyBulletのロコモーションタスクでは、Lattice-SACは成果の状態を達成し、ヒューマノイド環境での非構造探査よりも18%高い報酬を得る。
また,MyoSuiteの筋骨格制御環境において,Lattice-PPOは,ほとんどの到達や物体操作作業において高い報酬を得られるとともに,20~60%の削減によるエネルギー効率の向上も期待できる。
全体として,複雑なモータ制御タスクにおいて,時間とアクチュエータ空間における構造的動作ノイズの有効性を示す。
コードは、https://github.com/amathislab/lattice.comで入手できる。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Reconciling Spatial and Temporal Abstractions for Goal Representation [0.4813333335683418]
ゴール表現は階層強化学習(HRL)アルゴリズムの性能に影響する。
近年の研究では、時間的に抽象的な環境動態を保った表現が困難な問題の解決に成功していることが示されている。
本稿では,空間的および時間的目標抽象化の両方において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:33:30Z) - Mission-driven Exploration for Accelerated Deep Reinforcement Learning
with Temporal Logic Task Specifications [11.812602599752294]
未知の構造を持つ環境で動作している未知のダイナミクスを持つロボットについて考察する。
我々の目標は、オートマトン符号化されたタスクを満足する確率を最大化する制御ポリシーを合成することである。
そこで本研究では,制御ポリシーを類似手法と比較して顕著に高速に学習できるDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Deep Multi-Agent Reinforcement Learning with Hybrid Action Spaces based
on Maximum Entropy [0.0]
本稿では,ハイブリッドアクション空間におけるマルチエージェント問題に対処するために,深層マルチエージェントハイブリッド・アクター・クリティカル(MAHSAC)を提案する。
このアルゴリズムは、中央集権的なトレーニングであるが、分散実行(CTDE)パラダイムに従い、ハイブリッドアクション空間問題を扱うためにソフトアクター・クリティカルアルゴリズム(SAC)を拡張している。
私たちの経験は、連続的な観察と離散的なアクション空間を持つ、簡単なマルチエージェント粒子の世界と、いくつかの基本的なシミュレートされた物理学で動いています。
論文 参考訳(メタデータ) (2022-06-10T13:52:59Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Augmenting Reinforcement Learning with Behavior Primitives for Diverse
Manipulation Tasks [17.13584584844048]
本研究では,MAnipulation Primitive-augmented reinforcement LEarning (MAPLE)を導入した。
我々は、プリミティブを巻き込み、それらの実行を入力パラメータでインスタンス化する階層的なポリシーを開発する。
我々は、MAPLEが、シミュレーション操作タスクのスイートにおいて、ベースラインアプローチをかなりのマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:44:33Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。