論文の概要: Actor-Critic with variable time discretization via sustained actions
- arxiv url: http://arxiv.org/abs/2308.04299v1
- Date: Tue, 8 Aug 2023 14:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:36:50.472333
- Title: Actor-Critic with variable time discretization via sustained actions
- Title(参考訳): 持続的行動による時間的離散化を伴うアクタ-クリティック
- Authors: Jakub {\L}yskawa, Pawe{\l} Wawrzy\'nski
- Abstract要約: SusACERは、異なる時間離散化設定の利点を組み合わせた、非政治強化学習アルゴリズムである。
ロボット制御環境における時間偏差変化の影響を解析する:Ant, HalfCheetah, Hopper, Walker2D。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) methods work in discrete time. In order to apply
RL to inherently continuous problems like robotic control, a specific time
discretization needs to be defined. This is a choice between sparse time
control, which may be easier to train, and finer time control, which may allow
for better ultimate performance. In this work, we propose SusACER, an
off-policy RL algorithm that combines the advantages of different time
discretization settings. Initially, it operates with sparse time discretization
and gradually switches to a fine one. We analyze the effects of the changing
time discretization in robotic control environments: Ant, HalfCheetah, Hopper,
and Walker2D. In all cases our proposed algorithm outperforms state of the art.
- Abstract(参考訳): 強化学習(RL)法は離散時間で機能する。
ロボット制御のような本質的に連続した問題にRLを適用するには、特定の時間離散化を定義する必要がある。
これは、訓練が容易なスパースタイムコントロールと、最終的なパフォーマンス向上を可能にするより細かいタイムコントロールの2つの選択肢である。
本研究では,異なる時間離散化設定の利点を組み合わせたオフポリシーrlアルゴリズムであるsusacerを提案する。
最初はスパースタイムの離散化で動作し、徐々に微細なものに切り替える。
ロボット制御環境における時間偏差変化の影響を解析する:Ant, HalfCheetah, Hopper, Walker2D。
いずれの場合も,提案アルゴリズムは最先端技術より優れている。
関連論文リスト
- Stochastic Optimal Control Matching [56.325232632863276]
最適制御マッチング(SOCM)は、最適制御のための新しい反復拡散最適化(IDO)技術である。
本アルゴリズムは4つの制御問題のうち3つに対して最適制御を行うために既存のすべてのIDO手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。
不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文 参考訳(メタデータ) (2023-01-28T04:12:56Z) - Dynamic Decision Frequency with Continuous Options [11.83290684845269]
古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。
本研究では,連続時間連続オプティオン(CTCO)と呼ばれるフレームワークを提案する。
本研究では,環境相互作用の周波数選択の影響を受けないことを示す。
論文 参考訳(メタデータ) (2022-12-06T19:51:12Z) - ACERAC: Efficient reinforcement learning in fine time discretization [0.0]
本フレームワークでは,微時間分別学習における強化学習(RL)の枠組みと学習アルゴリズムを提案する。
このアルゴリズムの効率は、3つの他のRL法と異なる時間差で検証される。
論文 参考訳(メタデータ) (2021-04-08T18:40:20Z) - Continuous-Time Multi-Armed Bandits with Controlled Restarts [32.63624728528415]
時間制約決定過程に対する再起動制御による帯域幅問題について検討する。
特に、各決定がランダムな完了時間を要し、最後にランダムで相関した報酬が得られるような帯域設定を考える。
我々は,再起動戦略の有限かつ連続的な行動空間において,$O(log(tau))$と$O(sqrttaulog(tau))$後悔を用いて効率的なオンライン学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-06-30T19:50:39Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Time Adaptive Reinforcement Learning [2.0305676256390934]
強化学習(RL)は、Goのような複雑なタスクを、人間よりも強いパフォーマンスで解決することができる。
ここでは、あるタスクの実行から次のタスクの実行に変化する可能性のある、所定の時間制限でタスクを終了するなど、RLエージェントを異なる時間制限に適応するケースについて検討する。
Independent Gamma-Ensemble と n-Step Ensemble の2つのモデルフリーな値ベースアルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-04-18T11:52:07Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。