論文の概要: Creativity of AI: Hierarchical Planning Model Learning for Facilitating
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.09836v2
- Date: Fri, 7 Jul 2023 17:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 16:23:22.821295
- Title: Creativity of AI: Hierarchical Planning Model Learning for Facilitating
Deep Reinforcement Learning
- Title(参考訳): AIの創造性: 深層強化学習を支援する階層的計画モデル学習
- Authors: Hankz Hankui Zhuo, Shuting Deng, Mu Jin, Zhihao Ma, Kebing Jin, Chen
Chen, Chao Yu
- Abstract要約: シンボリックオプションを備えた新しい深層強化学習フレームワークを導入する。
当社のフレームワークは,政策改善の指針となるループトレーニングを特徴としている。
我々はモンテズマのRevengeとOffice Worldの2つの領域でそれぞれ実験を行っている。
- 参考スコア(独自算出の注目度): 19.470693909025798
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Despite of achieving great success in real-world applications, Deep
Reinforcement Learning (DRL) is still suffering from three critical issues,
i.e., data efficiency, lack of the interpretability and transferability. Recent
research shows that embedding symbolic knowledge into DRL is promising in
addressing those challenges. Inspired by this, we introduce a novel deep
reinforcement learning framework with symbolic options. Our framework features
a loop training procedure, which enables guiding the improvement of policy by
planning with planning models (including action models and hierarchical task
network models) and symbolic options learned from interactive trajectories
automatically. The learned symbolic options alleviate the dense requirement of
expert domain knowledge and provide inherent interpretability of policies.
Moreover, the transferability and data efficiency can be further improved by
planning with the symbolic planning models. To validate the effectiveness of
our framework, we conduct experiments on two domains, Montezuma's Revenge and
Office World, respectively. The results demonstrate the comparable performance,
improved data efficiency, interpretability and transferability.
- Abstract(参考訳): 現実世界のアプリケーションで大きな成功を収めたにも関わらず、深層強化学習(drl)は、データ効率、解釈可能性の欠如、転送可能性という3つの重要な問題に未だに苦しんでいる。
近年の研究では、DRLに記号的知識を組み込むことがこれらの課題に対処する上で有望であることが示されている。
そこで本研究では,シンボリックオプションを用いた新しい深層強化学習フレームワークを提案する。
本フレームワークは,計画モデル(アクションモデルと階層的タスクネットワークモデルを含む)と対話的トラジェクタから学習したシンボリックオプションを計画することにより,方針改善を導くループトレーニング手順を特徴とする。
学習された象徴的オプションは、専門家のドメイン知識の密接な要求を緩和し、ポリシーの固有の解釈可能性を提供する。
さらに、シンボリック計画モデルを用いて計画することにより、転送性とデータ効率をさらに向上させることができる。
この枠組みの有効性を検証するため,モンテズマの復讐とオフィスワールドという2つのドメインで実験を行った。
その結果,同等の性能,データ効率の向上,解釈性,転送性が示された。
関連論文リスト
- A Novel Neural-symbolic System under Statistical Relational Learning [50.747658038910565]
本稿では,GBPGRと呼ばれる2段階の確率的グラフィカル推論フレームワークを提案する。
GBPGRでは、シンボル推論の結果を用いて、ディープラーニングモデルによる予測を洗練し、修正する。
提案手法は高い性能を示し, 帰納的タスクと帰納的タスクの両方において効果的な一般化を示す。
論文 参考訳(メタデータ) (2023-09-16T09:15:37Z) - Reinforcement Learning in Robotic Motion Planning by Combined
Experience-based Planning and Self-Imitation Learning [7.919213739992465]
高品質で代表的なデータは、Imitation Learning(IL)とReinforcement Learning(RL)ベースのモーションプランニングタスクに不可欠である。
本稿では,学習アーキテクチャに経験に基づくプランニングを組み込むSILP+アルゴリズムを提案する。
様々な実験結果から,SILP+は複雑な運動計画タスクにおいて,トレーニング効率が向上し,より安定した成功率が得られることが示された。
論文 参考訳(メタデータ) (2023-06-11T19:47:46Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Learning Temporally Extended Skills in Continuous Domains as Symbolic
Actions for Planning [2.642698101441705]
長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。
本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2022-07-11T17:13:10Z) - Critic PI2: Master Continuous Planning via Policy Improvement with Path
Integrals and Deep Actor-Critic Reinforcement Learning [23.25444331531546]
木に基づく計画手法はチェスや囲碁といった個別の領域で大きな成功を収めている。
本稿では,トラジェクティブ最適化,深いアクター・アクター学習,モデルに基づく強化学習の利点を組み合わせた批判型PI2を提案する。
当社の作業は、モデルベースの計画システムのコンポーネントとその利用方法を学ぶための、新たな方向性を開くものです。
論文 参考訳(メタデータ) (2020-11-13T04:14:40Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Delta Schema Network in Model-based Reinforcement Learning [125.99533416395765]
この研究は、伝達学習の非効率性である人工知能の未解決問題に焦点が当てられている。
環境データからオブジェクトとアクション間の論理的関係を抽出できるスキーマネットワーク手法を拡張している。
本稿では,デルタネットワーク(DSN)をトレーニングし,環境の将来状態を予測し,前向きな報酬をもたらす計画行動を示すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T15:58:25Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。