論文の概要: State-Novelty Guided Action Persistence in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.05433v1
- Date: Mon, 9 Sep 2024 08:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 15:20:29.157606
- Title: State-Novelty Guided Action Persistence in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における国家指導行動パーシステンス
- Authors: Jianshu Hu, Paul Weng, Yutong Ban,
- Abstract要約: 状態空間の現在の探索状況に基づいて動的に動作の持続性を調整する新しい手法を提案する。
本手法は, 時間的持続性を組み込むため, 様々な基礎探査手法にシームレスに統合できる。
- 参考スコア(独自算出の注目度): 7.05832012052375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While a powerful and promising approach, deep reinforcement learning (DRL) still suffers from sample inefficiency, which can be notably improved by resorting to more sophisticated techniques to address the exploration-exploitation dilemma. One such technique relies on action persistence (i.e., repeating an action over multiple steps). However, previous work exploiting action persistence either applies a fixed strategy or learns additional value functions (or policy) for selecting the repetition number. In this paper, we propose a novel method to dynamically adjust the action persistence based on the current exploration status of the state space. In such a way, our method does not require training of additional value functions or policy. Moreover, the use of a smooth scheduling of the repeat probability allows a more effective balance between exploration and exploitation. Furthermore, our method can be seamlessly integrated into various basic exploration strategies to incorporate temporal persistence. Finally, extensive experiments on different DMControl tasks demonstrate that our state-novelty guided action persistence method significantly improves the sample efficiency.
- Abstract(参考訳): 強力で有望なアプローチであるにもかかわらず、深層強化学習(DRL)は依然としてサンプルの非効率に悩まされており、探索・探索ジレンマに対処するより高度な技術を活用することで顕著に改善することができる。
そのようなテクニックの1つは、アクション永続性(つまり、複数のステップでアクションを繰り返すこと)に依存している。
しかし、アクション永続性を利用する以前の作業は、固定された戦略を適用するか、繰り返し数を選択するために付加的な値関数(またはポリシー)を学ぶ。
本稿では,状態空間の現在の探査状況に基づいて動的に動作の持続性を調整する手法を提案する。
このようにして、我々の方法は付加価値関数やポリシーの訓練を必要としない。
さらに、反復確率のスムーズなスケジューリングを使用することで、探索と搾取のバランスがより効果的になる。
さらに,本手法は時間的持続性を組み込むため,様々な基礎探査戦略にシームレスに統合することができる。
最後に, DMControlタスクの多種多様な実験により, 動作継続法がサンプル効率を著しく向上することを示した。
関連論文リスト
- Learning Uncertainty-Aware Temporally-Extended Actions [22.901453123868674]
我々は不確かさを意識した時間拡張(UTE)という新しいアルゴリズムを提案する。
UTEはアンサンブル法を用いて、アクション拡張中の不確実性を正確に測定する。
我々はGridworldとAtari 2600環境における実験を通してUTEの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-08T06:32:06Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Simultaneously Updating All Persistence Values in Reinforcement Learning [40.10326490326968]
強化学習では、学習エージェントの性能は時間的離散化の選択に敏感である。
本研究は,低パーシステンス体験と高パーシステンス体験の両方を効果的に活用できる小説『All-Persistence Bellman Operator』を創出する。
論文 参考訳(メタデータ) (2022-11-21T16:22:57Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement
Learning [33.512849582347734]
より多様なタスクで共有されるオフラインデータから機能を学ぶことを提案する。
実演軌跡における時間的一貫性を直接モデル化する状態非依存の時間的先行性を導入する。
また、非政治強化学習における行動優先の新たな統合手法についても紹介する。
論文 参考訳(メタデータ) (2022-05-26T17:49:12Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Value-Based Reinforcement Learning for Continuous Control Robotic
Manipulation in Multi-Task Sparse Reward Settings [15.198729819644795]
スパース報酬設定における連続的なロボット操作タスクの学習における価値に基づく強化学習の可能性を示す。
ロボット操作タスクにおいて、RBF-DQNはTD3、SAC、PPOといった最先端のアルゴリズムよりも高速に収束することを示す。
また,RBF-DQNを用いてアブレーション研究を行い,HER (Hindsight Experience Replay) やPER ( Prioritized Experience Replay) などのバニラ深度Q学習の強化手法がRBF-DQNにも適用可能であることを示した。
論文 参考訳(メタデータ) (2021-07-28T13:40:08Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。