論文の概要: Control Frequency Adaptation via Action Persistence in Batch
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.06836v2
- Date: Sun, 12 Jul 2020 19:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 11:58:46.273579
- Title: Control Frequency Adaptation via Action Persistence in Batch
Reinforcement Learning
- Title(参考訳): バッチ強化学習における動作パーシステンスによる制御周波数適応
- Authors: Alberto Maria Metelli, Flavio Mazzolini, Lorenzo Bisi, Luca Sabbioni,
Marcello Restelli
- Abstract要約: 本稿では,一定回数の決定ステップに対するアクションの繰り返しを構成する動作持続性の概念を紹介する。
本稿では,FQIを拡張する新しいアルゴリズムであるPersistent Fitted Q-Iteration(PFQI)を提案する。
- 参考スコア(独自算出の注目度): 40.94323379769606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of the control frequency of a system has a relevant impact on the
ability of reinforcement learning algorithms to learn a highly performing
policy. In this paper, we introduce the notion of action persistence that
consists in the repetition of an action for a fixed number of decision steps,
having the effect of modifying the control frequency. We start analyzing how
action persistence affects the performance of the optimal policy, and then we
present a novel algorithm, Persistent Fitted Q-Iteration (PFQI), that extends
FQI, with the goal of learning the optimal value function at a given
persistence. After having provided a theoretical study of PFQI and a heuristic
approach to identify the optimal persistence, we present an experimental
campaign on benchmark domains to show the advantages of action persistence and
proving the effectiveness of our persistence selection method.
- Abstract(参考訳): システムの制御周波数の選択は、強化学習アルゴリズムが高度に機能するポリシーを学習する能力に関連性がある。
本稿では,一定数の決定ステップに対してアクションを繰り返し繰り返すことで,制御周波数を変化させる効果を有するアクション持続性の概念を提案する。
我々は、アクション持続性が最適なポリシーのパフォーマンスにどのように影響するかを分析し、fqiを拡張した新しいアルゴリズムであるpersistence fitted q-iteration(pfqi)を提案し、与えられた永続性で最適な値関数を学習することを目的としている。
PFQIの理論的研究と、最適永続性を特定するためのヒューリスティックなアプローチを提供した後、我々は、動作持続性の利点を示し、持続性選択法の有効性を証明するためのベンチマークドメインの実験的なキャンペーンを示す。
関連論文リスト
- Online Reinforcement Learning-Based Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks [5.115170525117103]
リアルタイム戦略タスクの効果的な評価には、動的で予測不可能な環境に対処するための適応的なメカニズムが必要である。
本研究では,戦場状況変化に対するリアルタイム応答性評価機能の改善手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T14:36:33Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - A Model-Based Approach for Improving Reinforcement Learning Efficiency
Leveraging Expert Observations [9.240917262195046]
本稿では,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。
様々な連続制御タスクの実験は、提案アルゴリズムが様々なベンチマークより優れていることを示した。
論文 参考訳(メタデータ) (2024-02-29T03:53:02Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Assessing the Impact of Context Inference Error and Partial
Observability on RL Methods for Just-In-Time Adaptive Interventions [12.762365585427377]
ジャスト・イン・タイム・アダプティブ・インターベンション(Just-in-Time Adaptive Interventions, JITAI)は、行動科学コミュニティ内で開発されたパーソナライズされた健康介入のクラスである。
JITAIは、事前定義されたコンポーネントセットから介入オプションのシーケンスを反復的に選択することで、適切なタイプとサポート量を提供することを目指している。
本研究では,文脈推定誤差と部分観測可能性が効果的な政策学習能力に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-17T02:46:37Z) - Action Pick-up in Dynamic Action Space Reinforcement Learning [6.15205100319133]
我々は,新しいアクションセットからパフォーマンスを高める可能性が最も高い価値あるアクションを自律的に選択するための,インテリジェントなアクションピックアップ(AP)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を担っていることを理論的に分析し,発見する。
次に、周波数に基づくグローバルメソッドと、事前の最適ポリシーに基づく状態クラスタリングに基づくローカルメソッドの2つの異なるAPメソッドを設計する。
論文 参考訳(メタデータ) (2023-04-03T10:55:16Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。