論文の概要: Variable-Decision Frequency Option Critic
- arxiv url: http://arxiv.org/abs/2212.04407v1
- Date: Tue, 6 Dec 2022 19:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:58:29.846223
- Title: Variable-Decision Frequency Option Critic
- Title(参考訳): 可変決定周波数オプション批判
- Authors: Amirmohammad Karimi, Jun Jin, Jun Luo, A. Rupam Mahmood, Martin
Jagersand and Samuele Tosatto
- Abstract要約: 古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。
本研究では,連続時間連続オプティオン(CTCO)と呼ばれるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.129389529475485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In classic reinforcement learning algorithms, agents make decisions at
discrete and fixed time intervals. The physical duration between one decision
and the next becomes a critical hyperparameter. When this duration is too
short, the agent needs to make many decisions to achieve its goal, aggravating
the problem's difficulty. But when this duration is too long, the agent becomes
incapable of controlling the system. Physical systems, however, do not need a
constant control frequency. For learning agents, it is desirable to operate
with low frequency when possible and high frequency when necessary. We propose
a framework called Continuous-Time Continuous-Options (CTCO), where the agent
chooses options as sub-policies of variable durations. Such options are
time-continuous and can interact with the system at any desired frequency
providing a smooth change of actions. The empirical analysis shows that our
algorithm is competitive w.r.t. other time-abstraction techniques, such as
classic option learning and action repetition, and practically overcomes the
difficult choice of the decision frequency.
- Abstract(参考訳): 古典的な強化学習アルゴリズムでは、エージェントは離散時間と固定時間間隔で決定する。
1つの決定と次の決定の間の物理的持続時間は臨界ハイパーパラメータとなる。
この期間が短すぎると、エージェントはその目標を達成するために多くの決断をし、問題の難しさを増す必要がある。
しかし、この期間が長すぎると、エージェントはシステムを制御することができない。
しかし、物理系は一定の制御周波数を必要としない。
学習エージェントは、可能であれば低周波、必要ならば高周波で操作することが望ましい。
提案するフレームワークはCTCO(Continuous-Time Continuous-Options)で,エージェントがオプションを可変期間のサブポリケーションとして選択する。
このようなオプションは時間連続であり、アクションのスムーズな変更を提供する任意の所望の頻度でシステムと対話することができる。
経験的分析により,我々のアルゴリズムは古典的オプション学習や行動反復といった時間短縮技術と競合し,決定頻度の難しい選択を実質的に克服していることが示された。
関連論文リスト
- MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Reinforcement Learning with Elastic Time Steps [14.838483990647697]
Multi-Objective Soft Elastic Actor-Critic (MOSEAC) は、弾性時間ステップを用いて制御周波数を動的に調整する非政治アクター批判アルゴリズムである。
我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。
論文 参考訳(メタデータ) (2024-02-22T20:49:04Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Actor-Critic with variable time discretization via sustained actions [0.0]
SusACERは、異なる時間離散化設定の利点を組み合わせた、非政治強化学習アルゴリズムである。
ロボット制御環境における時間偏差変化の影響を解析する:Ant, HalfCheetah, Hopper, Walker2D。
論文 参考訳(メタデータ) (2023-08-08T14:45:00Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Neural optimal feedback control with local learning rules [67.5926699124528]
運動制御の大きな問題は、脳がどのように遅延と雑音の刺激に直面して適切な動きを計画し実行するかを理解することである。
本稿では,適応カルマンフィルタとモデル自由制御手法を組み合わせた新しいオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-12T20:02:00Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。