論文の概要: Granger-Causal Hierarchical Skill Discovery
- arxiv url: http://arxiv.org/abs/2306.09509v1
- Date: Thu, 15 Jun 2023 21:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:48:51.240856
- Title: Granger-Causal Hierarchical Skill Discovery
- Title(参考訳): Granger-Causal Hierarchical Skill Discovery
- Authors: Caleb Chuck, Kevin Black, Aditya Arjun, Yuke Zhu, Scott Niekum
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 複雑なタスクに対する学習方針を示すが, サンプル効率が低く, 限られた移動に悩まされることが多い。
このアルゴリズムは、学習された相互作用検出器を用いて、要因の要因を操るスキルの階層を発見し、訓練する。
Grangerの因果性にインスパイアされたこれらの教師なし検出器は、有用なスキルを効率的に学習し、それらのスキルを他の関連するタスクに移すために、要因間の重要なイベントをキャプチャする。
- 参考スコア(独自算出の注目度): 40.63845341760038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has shown promising results learning policies for
complex tasks, but can often suffer from low sample efficiency and limited
transfer. We introduce the Hierarchy of Interaction Skills (HIntS) algorithm,
which uses learned interaction detectors to discover and train a hierarchy of
skills that manipulate factors in factored environments. Inspired by Granger
causality, these unsupervised detectors capture key events between factors to
sample efficiently learn useful skills and transfer those skills to other
related tasks -- tasks where many reinforcement learning techniques struggle.
We evaluate HIntS on a robotic pushing task with obstacles -- a challenging
domain where other RL and HRL methods fall short. The learned skills not only
demonstrate transfer using variants of Breakout, a common RL benchmark, but
also show 2-3x improvement in both sample efficiency and final performance
compared to comparable RL baselines. Together, HIntS demonstrates a proof of
concept for using Granger-causal relationships for skill discovery.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 複雑なタスクに対する学習方針を示すが, サンプル効率が低く, 限られた移動に悩まされることが多い。
本研究では,学習型インタラクション検出器を用いて因子操作を行うスキル階層を発見し,学習訓練を行うhintsアルゴリズムを提案する。
Granger因果性(Granger causality)にインスパイアされたこれらの教師なし検出装置は、有用なスキルを効果的に学習し、それらのスキルを他の関連するタスク(多くの強化学習技術が苦労するタスク)に転送する要因間の重要なイベントをキャプチャする。我々は、HIntSを障害のあるロボットプッシュタスク(他のRLとHRLメソッドが不足する困難な領域)で評価する。
学習したスキルは、一般的なRLベンチマークであるBreakoutの変種を用いた転送を実証するだけでなく、サンプル効率と最終性能の両方が、同等のRLベースラインと比較して2~3倍改善されている。
HIntSはGranger-Causal関係をスキル発見に活用するための概念実証を行う。
関連論文リスト
- Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Knowledge Transfer in Multi-Task Deep Reinforcement Learning for
Continuous Control [65.00425082663146]
連続制御のための知識伝達に基づく多タスク深層強化学習フレームワーク(KTM-DRL)を提案する。
KTM-DRLでは、マルチタスクエージェントがまずオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習する。
実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。
論文 参考訳(メタデータ) (2020-10-15T03:26:47Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。