Fugu-MT 論文翻訳(概要): Actor-Critic with variable time discretization via sustained actions

論文の概要: Actor-Critic with variable time discretization via sustained actions

arxiv url: http://arxiv.org/abs/2308.04299v1
Date: Tue, 8 Aug 2023 14:45:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 12:36:50.472333
Title: Actor-Critic with variable time discretization via sustained actions
Title（参考訳）: 持続的行動による時間的離散化を伴うアクタ-クリティック
Authors: Jakub {\L}yskawa, Pawe{\l} Wawrzy\'nski
Abstract要約: SusACERは、異なる時間離散化設定の利点を組み合わせた、非政治強化学習アルゴリズムである。ロボット制御環境における時間偏差変化の影響を解析する:Ant, HalfCheetah, Hopper, Walker2D。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) methods work in discrete time. In order to apply RL to inherently continuous problems like robotic control, a specific time discretization needs to be defined. This is a choice between sparse time control, which may be easier to train, and finer time control, which may allow for better ultimate performance. In this work, we propose SusACER, an off-policy RL algorithm that combines the advantages of different time discretization settings. Initially, it operates with sparse time discretization and gradually switches to a fine one. We analyze the effects of the changing time discretization in robotic control environments: Ant, HalfCheetah, Hopper, and Walker2D. In all cases our proposed algorithm outperforms state of the art.
Abstract（参考訳）: 強化学習(RL)法は離散時間で機能する。ロボット制御のような本質的に連続した問題にRLを適用するには、特定の時間離散化を定義する必要がある。これは、訓練が容易なスパースタイムコントロールと、最終的なパフォーマンス向上を可能にするより細かいタイムコントロールの2つの選択肢である。本研究では,異なる時間離散化設定の利点を組み合わせたオフポリシーrlアルゴリズムであるsusacerを提案する。最初はスパースタイムの離散化で動作し、徐々に微細なものに切り替える。ロボット制御環境における時間偏差変化の影響を解析する:Ant, HalfCheetah, Hopper, Walker2D。いずれの場合も,提案アルゴリズムは最先端技術より優れている。

関連論文リスト

Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文参考訳（メタデータ） (2024-06-03T09:57:18Z)
Reinforcement Learning with Elastic Time Steps [14.838483990647697]
Multi-Objective Soft Elastic Actor-Critic (MOSEAC) は、弾性時間ステップを用いて制御周波数を動的に調整する非政治アクター批判アルゴリズムである。我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。
論文参考訳（メタデータ） (2024-02-22T20:49:04Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Reaching the Limit in Autonomous Racing: Optimal Control versus Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文参考訳（メタデータ） (2023-10-17T02:40:27Z)
Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文参考訳（メタデータ） (2023-07-22T12:10:04Z)
Dynamic Decision Frequency with Continuous Options [11.83290684845269]
古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。本研究では,連続時間連続オプティオン(CTCO)と呼ばれるフレームワークを提案する。本研究では,環境相互作用の周波数選択の影響を受けないことを示す。
論文参考訳（メタデータ） (2022-12-06T19:51:12Z)
ACERAC: Efficient reinforcement learning in fine time discretization [0.0]
本フレームワークでは,微時間分別学習における強化学習(RL)の枠組みと学習アルゴリズムを提案する。このアルゴリズムの効率は、3つの他のRL法と異なる時間差で検証される。
論文参考訳（メタデータ） (2021-04-08T18:40:20Z)
Online Reinforcement Learning Control by Direct Heuristic Dynamic Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文参考訳（メタデータ） (2020-06-16T05:51:25Z)
Time Adaptive Reinforcement Learning [2.0305676256390934]
強化学習(RL)は、Goのような複雑なタスクを、人間よりも強いパフォーマンスで解決することができる。ここでは、あるタスクの実行から次のタスクの実行に変化する可能性のある、所定の時間制限でタスクを終了するなど、RLエージェントを異なる時間制限に適応するケースについて検討する。 Independent Gamma-Ensemble と n-Step Ensemble の2つのモデルフリーな値ベースアルゴリズムを導入する。
論文参考訳（メタデータ） (2020-04-18T11:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。