論文の概要: TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2205.13528v1
- Date: Thu, 26 May 2022 17:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 15:07:02.054251
- Title: TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement
Learning
- Title(参考訳): TempoRL:オフポリティ強化学習における時間的優先事項
- Authors: Marco Bagatella, Sammy Christen and Otmar Hilliges
- Abstract要約: より多様なタスクで共有されるオフラインデータから機能を学ぶことを提案する。
実演軌跡における時間的一貫性を直接モデル化する状態非依存の時間的先行性を導入する。
また、非政治強化学習における行動優先の新たな統合手法についても紹介する。
- 参考スコア(独自算出の注目度): 33.512849582347734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration is a crucial challenge in deep reinforcement learning.
Several methods, such as behavioral priors, are able to leverage offline data
in order to efficiently accelerate reinforcement learning on complex tasks.
However, if the task at hand deviates excessively from the demonstrated task,
the effectiveness of such methods is limited. In our work, we propose to learn
features from offline data that are shared by a more diverse range of tasks,
such as correlation between actions and directedness. Therefore, we introduce
state-independent temporal priors, which directly model temporal consistency in
demonstrated trajectories, and are capable of driving exploration in complex
tasks, even when trained on data collected on simpler tasks. Furthermore, we
introduce a novel integration scheme for action priors in off-policy
reinforcement learning by dynamically sampling actions from a probabilistic
mixture of policy and action prior. We compare our approach against strong
baselines and provide empirical evidence that it can accelerate reinforcement
learning in long-horizon continuous control tasks under sparse reward settings.
- Abstract(参考訳): 効率的な探索は、深層強化学習において重要な課題である。
複雑なタスクにおける強化学習を効率的に加速するために、動作先行などいくつかの手法がオフラインデータを活用することができる。
しかし、手作業が実証されたタスクから過度に逸脱した場合、そのような手法の有効性は制限される。
本研究では,より多様なタスクによって共有されるオフラインデータから,行動と指向性の相関などの特徴を学習することを提案する。
そこで本研究では,実演された軌跡の時間的一貫性を直接モデル化し,単純なタスクで収集したデータに基づいても複雑なタスクの探索を促進できる状態独立時間優先法を提案する。
さらに,政策と行動の確率的混合から動的に抽出し,オフポリシー強化学習における行動優先のための新しい統合手法を提案する。
我々は,このアプローチを強固なベースラインと比較し,分散報酬設定下での長期連続制御タスクにおける強化学習を促進できることを示す実証的証拠を提供する。
関連論文リスト
- State-Novelty Guided Action Persistence in Deep Reinforcement Learning [7.05832012052375]
状態空間の現在の探索状況に基づいて動的に動作の持続性を調整する新しい手法を提案する。
本手法は, 時間的持続性を組み込むため, 様々な基礎探査手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-09T08:34:22Z) - Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking [7.590209768166108]
本稿では,アクション空間を関連するアクションの状態依存集合にマッピングする3つの連続的なアクションマスキング手法を提案する。
本手法は,RLエージェントの予測可能性を高め,安全クリティカルなアプリケーションでの使用を可能にする。
論文 参考訳(メタデータ) (2024-06-06T02:55:16Z) - The Effect of Task Ordering in Continual Learning [12.571389210876315]
再注文タスクが破滅的忘れの量に大きく影響していることが示される。
本研究では,タスクオーダリングの効果を利用して連続的な学習性能を変化させることを示す。
論文 参考訳(メタデータ) (2022-05-26T12:56:15Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。