論文の概要: Learning Agents With Prioritization and Parameter Noise in Continuous State and Action Space
- arxiv url: http://arxiv.org/abs/2410.11250v1
- Date: Tue, 15 Oct 2024 04:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:40.338741
- Title: Learning Agents With Prioritization and Parameter Noise in Continuous State and Action Space
- Title(参考訳): 連続状態と行動空間における優先化とパラメータノイズを伴う学習エージェント
- Authors: Rajesh Mangannavar, Gopalakrishnan Srinivasaraghavan,
- Abstract要約: 本稿では,従来の連続状態問題と行動空間問題において,先行した結果よりも高い性能を示すために,最先端手法の組み合わせを優先的に導入する。
実験では、トレーニング中にパラメータノイズを用いることで、より堅牢なRLモデルも実現した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Among the many variants of RL, an important class of problems is where the state and action spaces are continuous -- autonomous robots, autonomous vehicles, optimal control are all examples of such problems that can lend themselves naturally to reinforcement based algorithms, and have continuous state and action spaces. In this paper, we introduce a prioritized form of a combination of state-of-the-art approaches such as Deep Q-learning (DQN) and Deep Deterministic Policy Gradient (DDPG) to outperform the earlier results for continuous state and action space problems. Our experiments also involve the use of parameter noise during training resulting in more robust deep RL models outperforming the earlier results significantly. We believe these results are a valuable addition for continuous state and action space problems.
- Abstract(参考訳): RLの多くの変種の中で重要な問題は、状態と行動空間が連続している点である。自律ロボット、自動運転車、最適制御は、自然に強化ベースのアルゴリズムに貸与し、連続状態と行動空間を持つことができる問題の例である。
本稿では,Deep Q-learning (DQN) やDeep Deterministic Policy Gradient (DDPG) といった最先端のアプローチの組み合わせを優先的に導入し,従来の連続状態や行動空間問題よりも優れていることを示す。
我々の実験では、トレーニング中にパラメータノイズを用いることで、より堅牢な深部RLモデルにより、より優れた結果が得られます。
これらの結果は、継続的な状態とアクションスペースの問題に価値ある追加であると考えています。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Demystifying the Physics of Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making [6.243971093896272]
本稿では,ベースラインモデルとしてポリシー最適化に基づくDRLアルゴリズムを用い,オープンソースのAVシミュレーション環境にマルチヘッドアテンションフレームワークを付加する。
第1頭部の重みは隣接する車両の位置を符号化し、第2頭部は先頭車両のみに焦点を当てている。
論文 参考訳(メタデータ) (2024-03-18T02:59:13Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Improved Exploring Starts by Kernel Density Estimation-Based State-Space
Coverage Acceleration in Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、制御工学における一般的な研究テーマである。
RLコントローラは、制御されたシステムと直接対話するために訓練され、データ駆動およびパフォーマンス指向のソリューションをレンダリングする。
DESSCAはカーネル密度推定に基づく状態空間カバレッジアクセラレーションである。
論文 参考訳(メタデータ) (2021-05-19T08:36:26Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z) - COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文 参考訳(メタデータ) (2020-06-16T22:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。