論文の概要: Leveraging Approximate Symbolic Models for Reinforcement Learning via
Skill Diversity
- arxiv url: http://arxiv.org/abs/2202.02886v1
- Date: Sun, 6 Feb 2022 23:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 16:44:51.620118
- Title: Leveraging Approximate Symbolic Models for Reinforcement Learning via
Skill Diversity
- Title(参考訳): スキル多様性による強化学習のための近似記号モデルの導入
- Authors: Lin Guan, Sarath Sreedharan, Subbarao Kambhampati
- Abstract要約: シンボリックモデル指導強化学習を導入し,シンボルモデルと基礎となるMDPの関係を形式化する。
これらのモデルを使用して、タスクを分解するために使用されるハイレベルなランドマークを抽出します。
低レベルでは、ランドマークによって特定されるタスクのサブゴールごとに、さまざまなポリシーのセットを学びます。
- 参考スコア(独自算出の注目度): 32.35693772984721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating reinforcement learning (RL) agents that are capable of accepting and
leveraging task-specific knowledge from humans has been long identified as a
possible strategy for developing scalable approaches for solving long-horizon
problems. While previous works have looked at the possibility of using symbolic
models along with RL approaches, they tend to assume that the high-level action
models are executable at low level and the fluents can exclusively characterize
all desirable MDP states. This need not be true and this assumption overlooks
one of the central technical challenges of incorporating symbolic task
knowledge, namely, that these symbolic models are going to be an incomplete
representation of the underlying task. To this end, we introduce Symbolic-Model
Guided Reinforcement Learning, wherein we will formalize the relationship
between the symbolic model and the underlying MDP that will allow us to capture
the incompleteness of the symbolic model. We will use these models to extract
high-level landmarks that will be used to decompose the task, and at the low
level, we learn a set of diverse policies for each possible task sub-goal
identified by the landmark. We evaluate our system by testing on three
different benchmark domains and we show how even with incomplete symbolic model
information, our approach is able to discover the task structure and
efficiently guide the RL agent towards the goal.
- Abstract(参考訳): 人間からタスク固有の知識を受け入れて活用できる強化学習(rl)エージェントを作成することは、長期ホリゾン問題を解決するためのスケーラブルなアプローチを開発するための可能な戦略であると長い間認識されてきた。
以前の研究では、RLアプローチとともに記号モデルを使用する可能性を検討したが、ハイレベルなアクションモデルが低レベルで実行可能であり、フロートは全ての望ましいMDP状態を特徴付けることができると仮定する傾向がある。
この仮定は、シンボリックタスクの知識を組み込むことにおける中心的な技術的課題の1つ、すなわち、これらのシンボリックモデルが基礎となるタスクの不完全な表現になることを見逃している。
この目的のために、シンボルモデルガイド強化学習を導入し、シンボルモデルと基礎となるMDPの関係を形式化し、シンボルモデルの不完全性を捉える。
これらのモデルを用いて、タスクを分解するために使用されるハイレベルなランドマークを抽出し、低レベルにおいて、ランドマークによって特定される可能性のあるタスクサブゴールごとに、さまざまなポリシーのセットを学ぶ。
我々は,3つの異なるベンチマーク領域でテストを行い,不完全なシンボリックモデル情報を用いても,タスク構造を探索し,rlエージェントを目標に向けて効率的に誘導する手法を示す。
関連論文リスト
- MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.68829963458408]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - A Bayesian Unification of Self-Supervised Clustering and Energy-Based
Models [11.007541337967027]
我々は、最先端の自己教師型学習目標のベイズ分析を行う。
目的関数が既存の自己教師型学習戦略より優れていることを示す。
また、GEDIをニューロシンボリックな枠組みに統合できることを実証した。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - A Novel Neural-symbolic System under Statistical Relational Learning [50.747658038910565]
本稿では,GBPGRと呼ばれる2段階の確率的グラフィカル推論フレームワークを提案する。
GBPGRでは、シンボル推論の結果を用いて、ディープラーニングモデルによる予測を洗練し、修正する。
提案手法は高い性能を示し, 帰納的タスクと帰納的タスクの両方において効果的な一般化を示す。
論文 参考訳(メタデータ) (2023-09-16T09:15:37Z) - Goal Space Abstraction in Hierarchical Reinforcement Learning via
Reachability Analysis [0.0]
本研究では,環境状態の集合を抽象化する創発的表現によるサブゴール発見のための発達機構を提案する。
我々は、この表現をポリシーとともに徐々に学習し、それをナビゲーションタスクで評価して、学習した表現が解釈可能であり、結果としてデータ効率が向上することを示すHRLアルゴリズムを作成する。
論文 参考訳(メタデータ) (2023-09-12T06:53:11Z) - Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-26T15:00:42Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - SPOTTER: Extending Symbolic Planning Operators through Targeted
Reinforcement Learning [24.663586662594703]
シンボリックプランニングモデルにより、意思決定エージェントは任意の方法でアクションをシーケンスし、ダイナミックドメインでさまざまな目標を達成できます。
強化学習アプローチはそのようなモデルを必要とせず、環境を探索して報酬を集めることでドメインダイナミクスを学ぶ。
我々は,当初エージェントが到達できない目標を達成するために必要な新たなオペレータを見つけることで,計画エージェント("spot")の強化とサポートにrlを使用するspotterという統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-24T00:31:02Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Transferable Task Execution from Pixels through Deep Planning Domain
Learning [46.88867228115775]
階層モデルを学ぶために,DPDL(Deep Planning Domain Learning)を提案する。
DPDLは、現在の象徴的世界状態からなる論理述語セットの値を予測する高レベルモデルを学ぶ。
これにより、ロボットが明示的に訓練されていなくても、複雑なマルチステップタスクを実行できます。
論文 参考訳(メタデータ) (2020-03-08T05:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。