論文の概要: Variable-Decision Frequency Option Critic
- arxiv url: http://arxiv.org/abs/2212.04407v1
- Date: Tue, 6 Dec 2022 19:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:58:29.846223
- Title: Variable-Decision Frequency Option Critic
- Title(参考訳): 可変決定周波数オプション批判
- Authors: Amirmohammad Karimi, Jun Jin, Jun Luo, A. Rupam Mahmood, Martin
Jagersand and Samuele Tosatto
- Abstract要約: 古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。
本研究では,連続時間連続オプティオン(CTCO)と呼ばれるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.129389529475485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In classic reinforcement learning algorithms, agents make decisions at
discrete and fixed time intervals. The physical duration between one decision
and the next becomes a critical hyperparameter. When this duration is too
short, the agent needs to make many decisions to achieve its goal, aggravating
the problem's difficulty. But when this duration is too long, the agent becomes
incapable of controlling the system. Physical systems, however, do not need a
constant control frequency. For learning agents, it is desirable to operate
with low frequency when possible and high frequency when necessary. We propose
a framework called Continuous-Time Continuous-Options (CTCO), where the agent
chooses options as sub-policies of variable durations. Such options are
time-continuous and can interact with the system at any desired frequency
providing a smooth change of actions. The empirical analysis shows that our
algorithm is competitive w.r.t. other time-abstraction techniques, such as
classic option learning and action repetition, and practically overcomes the
difficult choice of the decision frequency.
- Abstract(参考訳): 古典的な強化学習アルゴリズムでは、エージェントは離散時間と固定時間間隔で決定する。
1つの決定と次の決定の間の物理的持続時間は臨界ハイパーパラメータとなる。
この期間が短すぎると、エージェントはその目標を達成するために多くの決断をし、問題の難しさを増す必要がある。
しかし、この期間が長すぎると、エージェントはシステムを制御することができない。
しかし、物理系は一定の制御周波数を必要としない。
学習エージェントは、可能であれば低周波、必要ならば高周波で操作することが望ましい。
提案するフレームワークはCTCO(Continuous-Time Continuous-Options)で,エージェントがオプションを可変期間のサブポリケーションとして選択する。
このようなオプションは時間連続であり、アクションのスムーズな変更を提供する任意の所望の頻度でシステムと対話することができる。
経験的分析により,我々のアルゴリズムは古典的オプション学習や行動反復といった時間短縮技術と競合し,決定頻度の難しい選択を実質的に克服していることが示された。
関連論文リスト
- Deployable Reinforcement Learning with Variable Control Rate [17.529703157304887]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Actor-Critic with variable time discretization via sustained actions [0.0]
SusACERは、異なる時間離散化設定の利点を組み合わせた、非政治強化学習アルゴリズムである。
ロボット制御環境における時間偏差変化の影響を解析する:Ant, HalfCheetah, Hopper, Walker2D。
論文 参考訳(メタデータ) (2023-08-08T14:45:00Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Neural optimal feedback control with local learning rules [67.5926699124528]
運動制御の大きな問題は、脳がどのように遅延と雑音の刺激に直面して適切な動きを計画し実行するかを理解することである。
本稿では,適応カルマンフィルタとモデル自由制御手法を組み合わせた新しいオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-12T20:02:00Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - Assessment of Reward Functions for Reinforcement Learning Traffic Signal
Control under Real-World Limitations [0.0]
本稿では,マンチェスター大都市圏のジャンクションシミュレーションにおいて,異なる報酬関数を用いたエージェントの性能を比較した。
速度の最大化により、すべての需要レベルにおいて平均待ち時間が最低となり、文献で紹介された他の報酬よりも性能が著しく向上したことが判明した。
論文 参考訳(メタデータ) (2020-08-26T15:47:15Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - Time Adaptive Reinforcement Learning [2.0305676256390934]
強化学習(RL)は、Goのような複雑なタスクを、人間よりも強いパフォーマンスで解決することができる。
ここでは、あるタスクの実行から次のタスクの実行に変化する可能性のある、所定の時間制限でタスクを終了するなど、RLエージェントを異なる時間制限に適応するケースについて検討する。
Independent Gamma-Ensemble と n-Step Ensemble の2つのモデルフリーな値ベースアルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-04-18T11:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。