論文の概要: Variable Decision-Frequency Option Critic
- arxiv url: http://arxiv.org/abs/2212.04407v3
- Date: Fri, 23 Jun 2023 19:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 00:07:31.867341
- Title: Variable Decision-Frequency Option Critic
- Title(参考訳): 可変決定周波数オプション批判
- Authors: Amirmohammad Karimi, Jun Jin, Jun Luo, A. Rupam Mahmood, Martin
Jagersand and Samuele Tosatto
- Abstract要約: 古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。
提案するフレームワークはCTCO(Continuous-Time Continuous-Options)で,エージェントがオプションを可変期間のサブポリケーションとして選択する。
提案アルゴリズムの性能は,環境相互作用周波数の選択の影響を受けないことを示す。
- 参考スコア(独自算出の注目度): 10.129389529475485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In classic reinforcement learning algorithms, agents make decisions at
discrete and fixed time intervals. The duration between decisions becomes a
crucial hyperparameter, as setting it too short may increase the difficulty of
the problem by requiring the agent to make numerous decisions to achieve its
goal, while setting it too long can result in the agent losing control over the
system. However, physical systems do not necessarily require a constant control
frequency, and for learning agents, it is often preferable to operate with a
low frequency when possible and a high frequency when necessary. We propose a
framework called Continuous-Time Continuous-Options (CTCO), where the agent
chooses options as sub-policies of variable durations. These options are
time-continuous and can interact with the system at any desired frequency
providing a smooth change of actions. We demonstrate the effectiveness of CTCO
by comparing its performance to classical RL and temporal-abstraction RL
methods on simulated continuous control tasks with various action-cycle times.
We show that our algorithm's performance is not affected by choice of
environment interaction frequency. Furthermore, we demonstrate the efficacy of
CTCO in facilitating exploration in a real-world visual reaching task for a 7
DOF robotic arm with sparse rewards.
- Abstract(参考訳): 古典的な強化学習アルゴリズムでは、エージェントは離散時間と固定時間間隔で決定する。
決定の間隔が短すぎると、エージェントが目標を達成するために多数の決定をしなければならないため、エージェントがシステムの制御を失う可能性があるため、決定間の期間は重要なハイパーパラメータとなる。
しかし、物理系は必ずしも一定の制御周波数を必要としないため、学習エージェントの場合、可能であれば低い周波数、必要ならば高い周波数で操作することが好ましい。
提案するフレームワークはCTCO(Continuous-Time Continuous-Options)で,エージェントがオプションを可変期間のサブポリケーションとして選択する。
これらのオプションは時間連続であり、アクションのスムーズな変更を提供する任意の所望の頻度でシステムと対話することができる。
動作サイクルの異なる連続制御タスクにおける従来のRL法と時間的吸収RL法を比較し,CTCOの有効性を示す。
提案アルゴリズムの性能は,環境相互作用周波数の選択の影響を受けないことを示す。
さらに,sparse rewardの7自由度ロボットアームを用いた実世界の視覚到達作業におけるctcoの有効性を実証した。
関連論文リスト
- MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Reinforcement Learning with Elastic Time Steps [14.838483990647697]
Multi-Objective Soft Elastic Actor-Critic (MOSEAC) は、弾性時間ステップを用いて制御周波数を動的に調整する非政治アクター批判アルゴリズムである。
我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。
論文 参考訳(メタデータ) (2024-02-22T20:49:04Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Actor-Critic with variable time discretization via sustained actions [0.0]
SusACERは、異なる時間離散化設定の利点を組み合わせた、非政治強化学習アルゴリズムである。
ロボット制御環境における時間偏差変化の影響を解析する:Ant, HalfCheetah, Hopper, Walker2D。
論文 参考訳(メタデータ) (2023-08-08T14:45:00Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Neural optimal feedback control with local learning rules [67.5926699124528]
運動制御の大きな問題は、脳がどのように遅延と雑音の刺激に直面して適切な動きを計画し実行するかを理解することである。
本稿では,適応カルマンフィルタとモデル自由制御手法を組み合わせた新しいオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-12T20:02:00Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。