論文の概要: SPOTTER: Extending Symbolic Planning Operators through Targeted
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.13037v1
- Date: Thu, 24 Dec 2020 00:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:20:03.366918
- Title: SPOTTER: Extending Symbolic Planning Operators through Targeted
Reinforcement Learning
- Title(参考訳): SPOTTER:目標強化学習によるシンボリックプランニングオペレータの拡張
- Authors: Vasanth Sarathy, Daniel Kasenberg, Shivam Goel, Jivko Sinapov,
Matthias Scheutz
- Abstract要約: シンボリックプランニングモデルにより、意思決定エージェントは任意の方法でアクションをシーケンスし、ダイナミックドメインでさまざまな目標を達成できます。
強化学習アプローチはそのようなモデルを必要とせず、環境を探索して報酬を集めることでドメインダイナミクスを学ぶ。
我々は,当初エージェントが到達できない目標を達成するために必要な新たなオペレータを見つけることで,計画エージェント("spot")の強化とサポートにrlを使用するspotterという統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.663586662594703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Symbolic planning models allow decision-making agents to sequence actions in
arbitrary ways to achieve a variety of goals in dynamic domains. However, they
are typically handcrafted and tend to require precise formulations that are not
robust to human error. Reinforcement learning (RL) approaches do not require
such models, and instead learn domain dynamics by exploring the environment and
collecting rewards. However, RL approaches tend to require millions of episodes
of experience and often learn policies that are not easily transferable to
other tasks. In this paper, we address one aspect of the open problem of
integrating these approaches: how can decision-making agents resolve
discrepancies in their symbolic planning models while attempting to accomplish
goals? We propose an integrated framework named SPOTTER that uses RL to augment
and support ("spot") a planning agent by discovering new operators needed by
the agent to accomplish goals that are initially unreachable for the agent.
SPOTTER outperforms pure-RL approaches while also discovering transferable
symbolic knowledge and does not require supervision, successful plan traces or
any a priori knowledge about the missing planning operator.
- Abstract(参考訳): シンボリックプランニングモデルは、決定エージェントが任意の方法でアクションをシーケンスし、動的ドメインの様々な目標を達成することを可能にする。
しかし、通常は手作りであり、人間の誤りに対して堅牢でない正確な定式化を必要とする傾向がある。
強化学習(RL)アプローチはそのようなモデルを必要としない。
しかしながら、RLアプローチは数百万回の経験を必要とし、しばしば他のタスクに簡単に転送できないポリシーを学ぶ。
本稿では、これらのアプローチを統合するためのオープンな問題の1つに対処する: 意思決定エージェントは、目標達成を試みながら、象徴的計画モデルにおける不一致をどうやって解決できるのか?
エージェントに到達不可能な目標を達成するために,エージェントが必要とする新たな演算子を探索し,RLを用いて計画エージェントを増強し,サポートするSPOTTERという統合フレームワークを提案する。
SPOTTERは純粋なRLアプローチよりも優れており、トランスファー可能なシンボリック知識を発見し、監督や計画トレース、あるいは行方不明の計画オペレータに関する事前知識を必要としない。
関連論文リスト
- Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games [6.532258098619471]
部分的に観察可能なマルチエージェント追従ゲーム(PEG)における回避目標の動作計画タスクに焦点をあてる。
これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、様々な応用に関係している。
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-07-20T13:08:14Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Leveraging Approximate Symbolic Models for Reinforcement Learning via
Skill Diversity [32.35693772984721]
シンボリックモデル指導強化学習を導入し,シンボルモデルと基礎となるMDPの関係を形式化する。
これらのモデルを使用して、タスクを分解するために使用されるハイレベルなランドマークを抽出します。
低レベルでは、ランドマークによって特定されるタスクのサブゴールごとに、さまざまなポリシーのセットを学びます。
論文 参考訳(メタデータ) (2022-02-06T23:20:30Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。