論文の概要: When Do Skills Help Reinforcement Learning? A Theoretical Analysis of Temporal Abstractions
- arxiv url: http://arxiv.org/abs/2406.07897v1
- Date: Wed, 12 Jun 2024 06:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:15:17.148658
- Title: When Do Skills Help Reinforcement Learning? A Theoretical Analysis of Temporal Abstractions
- Title(参考訳): スキルは強化学習に役立つのか? : 時間的抽象化の理論的分析
- Authors: Zhening Li, Gabriel Poesia, Armando Solar-Lezama,
- Abstract要約: スキルは強化学習(RL)のパフォーマンスを改善するための時間的抽象化である。
状態に対する解が圧縮性に乏しい環境では,RL性能の低下が理論的,実証的に証明される。
我々の発見は、自動スキル発見の研究をガイドし、RL実践者がいつ、どのようにスキルを使うかをよりよく決めるのに役立つことを願っている。
- 参考スコア(独自算出の注目度): 12.74839237274274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skills are temporal abstractions that are intended to improve reinforcement learning (RL) performance through hierarchical RL. Despite our intuition about the properties of an environment that make skills useful, a precise characterization has been absent. We provide the first such characterization, focusing on the utility of deterministic skills in deterministic sparse-reward environments with finite action spaces. We show theoretically and empirically that RL performance gain from skills is worse in environments where solutions to states are less compressible. Additional theoretical results suggest that skills benefit exploration more than they benefit learning from existing experience, and that using unexpressive skills such as macroactions may worsen RL performance. We hope our findings can guide research on automatic skill discovery and help RL practitioners better decide when and how to use skills.
- Abstract(参考訳): スキルとは、階層的RLによる強化学習(RL)のパフォーマンス向上を目的とした時間的抽象化である。
スキルを活かす環境の性質について直感的に考えるが、正確な特徴は欠落している。
有限な作用空間を持つ決定論的スパース・リワード環境における決定論的スキルの有用性に着目した最初の特徴付けを提供する。
状態に対する解が圧縮性に乏しい環境では,RL性能の低下が理論的,実証的に証明される。
さらなる理論的結果は、既存の経験から学ぶことよりも探索に有益であることが示唆され、マクロアクションのような非表現的なスキルを使用することは、RLのパフォーマンスを悪化させる可能性がある。
我々の発見は、自動スキル発見の研究をガイドし、RL実践者がいつ、どのようにスキルを使うかをよりよく決めるのに役立つことを願っている。
関連論文リスト
- EXTRACT: Efficient Policy Learning by Extracting Transferrable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。
そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。
提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-25T03:07:56Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - A User Study on Explainable Online Reinforcement Learning for Adaptive
Systems [0.802904964931021]
オンライン強化学習(RL)は、設計時間の不確実性の存在下で適応システムの実現にますます利用されている。
深いRLが関心を持つようになると、学習された知識はもはや明示的に表現されるのではなく、ニューラルネットワークとして表現される。
XRL-DINEは、重要な時点において決定が下された理由に関する視覚的な洞察を提供する。
論文 参考訳(メタデータ) (2023-07-09T05:12:42Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Residual Skill Policies: Learning an Adaptable Skill-based Action Space
for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。
本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。
我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-04T02:42:17Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning [27.69559938165733]
実践とホーミングのスキルは、人間の学習の基本的な要素だが、人工エージェントは、それらを実行するために特別に訓練されることはめったにない。
複雑な環境下での強化学習(RL)エージェントの訓練に、どのようにスキルを組み込むことができるかを検討する。
本実験により, 複雑な問題に対するエージェントの性能向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2022-07-23T19:23:29Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。