論文の概要: Learning Uncertainty-Aware Temporally-Extended Actions
- arxiv url: http://arxiv.org/abs/2402.05439v1
- Date: Thu, 8 Feb 2024 06:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:21:28.398731
- Title: Learning Uncertainty-Aware Temporally-Extended Actions
- Title(参考訳): 不確かさの学習-時間的延長行動の認識
- Authors: Joongkyu Lee, Seung Joon Park, Yunhao Tang, Min-hwan Oh
- Abstract要約: 我々は不確かさを意識した時間拡張(UTE)という新しいアルゴリズムを提案する。
UTEはアンサンブル法を用いて、アクション拡張中の不確実性を正確に測定する。
我々はGridworldとAtari 2600環境における実験を通してUTEの有効性を実証した。
- 参考スコア(独自算出の注目度): 22.901453123868674
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In reinforcement learning, temporal abstraction in the action space,
exemplified by action repetition, is a technique to facilitate policy learning
through extended actions. However, a primary limitation in previous studies of
action repetition is its potential to degrade performance, particularly when
sub-optimal actions are repeated. This issue often negates the advantages of
action repetition. To address this, we propose a novel algorithm named
Uncertainty-aware Temporal Extension (UTE). UTE employs ensemble methods to
accurately measure uncertainty during action extension. This feature allows
policies to strategically choose between emphasizing exploration or adopting an
uncertainty-averse approach, tailored to their specific needs. We demonstrate
the effectiveness of UTE through experiments in Gridworld and Atari 2600
environments. Our findings show that UTE outperforms existing action repetition
algorithms, effectively mitigating their inherent limitations and significantly
enhancing policy learning efficiency.
- Abstract(参考訳): 強化学習において、行動空間における時間的抽象は、行動反復によって実証され、拡張された行動を通して政策学習を促進する技術である。
しかしながら、以前のアクション反復の研究における主要な制限は、特にサブ・オプティカルなアクションを繰り返した場合にパフォーマンスを低下させる可能性である。
この問題はアクション反復の利点をしばしば否定する。
そこで本研究では,不確実性を考慮した時間拡張(UTE)という新しいアルゴリズムを提案する。
UTEはアンサンブル法を用いて、アクション拡張中の不確実性を正確に測定する。
この機能は、調査を強調するか、特定のニーズに合わせて不確実性回避アプローチを採用するかを戦略的に選択できる。
グリッドワールドおよびアタリ2600環境における実験によるUTEの有効性を示す。
以上の結果から,UTEは既存の行動反復アルゴリズムよりも優れており,本質的な制約を効果的に軽減し,政策学習効率を著しく向上させることがわかった。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - State-Novelty Guided Action Persistence in Deep Reinforcement Learning [7.05832012052375]
状態空間の現在の探索状況に基づいて動的に動作の持続性を調整する新しい手法を提案する。
本手法は, 時間的持続性を組み込むため, 様々な基礎探査手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-09T08:34:22Z) - Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking [7.590209768166108]
本稿では,アクション空間を関連するアクションの状態依存集合にマッピングする3つの連続的なアクションマスキング手法を提案する。
本手法は,RLエージェントの予測可能性を高め,安全クリティカルなアプリケーションでの使用を可能にする。
論文 参考訳(メタデータ) (2024-06-06T02:55:16Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Soft Action Priors: Towards Robust Policy Transfer [9.860944032009847]
我々は、Reinforcement Learning as Inferenceフレームワークに先行する行動を用いて、最先端の政策蒸留技術を回復する。
そこで本研究では,報酬形成と補助正規化損失を組み合わせることで,行動先行を堅牢に活用できる適応手法のクラスを提案する。
提案手法は, 準最適先行学習において, 最先端の性能を達成し, 性能を上回り得ることを示す。
論文 参考訳(メタデータ) (2022-09-20T17:36:28Z) - Safe and Robust Experience Sharing for Deterministic Policy Gradient
Algorithms [0.0]
本稿では,連続行動領域における決定論的ポリシーの簡易かつ効果的な経験共有機構を提案する。
我々は,行動確率を見積もることなく,新たな法外補正手法でアルゴリズムを高速化する。
我々は,OpenAI Gym連続制御タスクに挑戦する上で,提案手法の有効性を検証し,複数のエージェント間での安全な共有を実現することができると結論付けた。
論文 参考訳(メタデータ) (2022-07-27T11:10:50Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。