Fugu-MT 論文翻訳(概要): Creativity of AI: Automatic Symbolic Option Discovery for Facilitating Deep Reinforcement Learning

論文の概要: Creativity of AI: Automatic Symbolic Option Discovery for Facilitating Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2112.09836v1
Date: Sat, 18 Dec 2021 03:45:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-23 04:04:06.807949
Title: Creativity of AI: Automatic Symbolic Option Discovery for Facilitating Deep Reinforcement Learning
Title（参考訳）: AIの創造性: 深層強化学習を支援するシンボリックオプションの自動発見
Authors: Mu Jin, Zhihao Ma, Kebing Jin, Hankz Hankui Zhuo, Chen Chen, Chao Yu
Abstract要約: シンボリックオプションを備えた新しい深層強化学習フレームワークを導入する。学習されたシンボリックオプションは、専門家のドメイン知識の密集した要求を緩和し、ポリシーの固有の解釈可能性を提供する。結果は、同等のパフォーマンス、データ効率の改善、解釈可能性、転送可能性を示している。
参考スコア（独自算出の注目度）: 14.680537667718593
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite of achieving great success in real life, Deep Reinforcement Learning (DRL) is still suffering from three critical issues, which are data efficiency, lack of the interpretability and transferability. Recent research shows that embedding symbolic knowledge into DRL is promising in addressing those challenges. Inspired by this, we introduce a novel deep reinforcement learning framework with symbolic options. This framework features a loop training procedure, which enables guiding the improvement of policy by planning with action models and symbolic options learned from interactive trajectories automatically. The learned symbolic options alleviate the dense requirement of expert domain knowledge and provide inherent interpretability of policies. Moreover, the transferability and data efficiency can be further improved by planning with the action models. To validate the effectiveness of this framework, we conduct experiments on two domains, Montezuma's Revenge and Office World, respectively. The results demonstrate the comparable performance, improved data efficiency, interpretability and transferability.
Abstract（参考訳）: 実生活で大きな成功を収めたにもかかわらず、深層強化学習(DRL)は、データ効率、解釈可能性の欠如、伝達可能性の欠如という3つの重要な問題に依然として苦しんでいる。近年の研究では、DRLに記号的知識を組み込むことがこれらの課題に対処する上で有望であることが示されている。そこで本研究では,シンボリックオプションを用いた新しい深層強化学習フレームワークを提案する。本フレームワークは,対話的軌道から学習した行動モデルとシンボルオプションを用いて計画することで,政策改善の指導を可能にするループトレーニング手順を特徴とする。学習された象徴的オプションは、専門家のドメイン知識の密接な要求を緩和し、ポリシーの固有の解釈可能性を提供する。さらに、アクションモデルによる計画により、転送性とデータ効率をさらに向上させることができる。この枠組みの有効性を検証するため,モンテズマの復讐とオフィスワールドという2つのドメインで実験を行った。その結果,同等の性能,データ効率の向上,解釈性,転送性が示された。

関連論文リスト

Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning [51.54559117314768]
最近の研究は、時間プランナーの性能向上のためのガイダンスの合成に強化学習(Reinforcement Learning, RL)を用いることを検討した。本稿では,RLと計画段階の両方において,シンボリックスが提供した情報を活用することに焦点を当てた学習計画フレームワークの進化を提案する。
論文参考訳（メタデータ） (2025-05-19T17:19:13Z)
Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文参考訳（メタデータ） (2025-04-23T17:53:34Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [31.509112804985133]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
A Novel Neural-symbolic System under Statistical Relational Learning [50.747658038910565]
本稿では,GBPGRと呼ばれる2段階の確率的グラフィカル推論フレームワークを提案する。 GBPGRでは、シンボル推論の結果を用いて、ディープラーニングモデルによる予測を洗練し、修正する。提案手法は高い性能を示し, 帰納的タスクと帰納的タスクの両方において効果的な一般化を示す。
論文参考訳（メタデータ） (2023-09-16T09:15:37Z)
Reinforcement Learning in Robotic Motion Planning by Combined Experience-based Planning and Self-Imitation Learning [7.919213739992465]
高品質で代表的なデータは、Imitation Learning(IL)とReinforcement Learning(RL)ベースのモーションプランニングタスクに不可欠である。本稿では,学習アーキテクチャに経験に基づくプランニングを組み込むSILP+アルゴリズムを提案する。様々な実験結果から,SILP+は複雑な運動計画タスクにおいて,トレーニング効率が向上し,より安定した成功率が得られることが示された。
論文参考訳（メタデータ） (2023-06-11T19:47:46Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Learning Temporally Extended Skills in Continuous Domains as Symbolic Actions for Planning [2.642698101441705]
長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
論文参考訳（メタデータ） (2022-07-11T17:13:10Z)
Critic PI2: Master Continuous Planning via Policy Improvement with Path Integrals and Deep Actor-Critic Reinforcement Learning [23.25444331531546]
木に基づく計画手法はチェスや囲碁といった個別の領域で大きな成功を収めている。本稿では,トラジェクティブ最適化,深いアクター・アクター学習,モデルに基づく強化学習の利点を組み合わせた批判型PI2を提案する。当社の作業は、モデルベースの計画システムのコンポーネントとその利用方法を学ぶための、新たな方向性を開くものです。
論文参考訳（メタデータ） (2020-11-13T04:14:40Z)
Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文参考訳（メタデータ） (2020-10-27T13:17:18Z)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-10-23T03:22:01Z)
Delta Schema Network in Model-based Reinforcement Learning [125.99533416395765]
この研究は、伝達学習の非効率性である人工知能の未解決問題に焦点が当てられている。環境データからオブジェクトとアクション間の論理的関係を抽出できるスキーマネットワーク手法を拡張している。本稿では,デルタネットワーク(DSN)をトレーニングし,環境の将来状態を予測し,前向きな報酬をもたらす計画行動を示すアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T15:58:25Z)
Task-Feature Collaborative Learning with Application to Personalized Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文参考訳（メタデータ） (2020-04-29T02:32:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。