論文の概要: Discover Life Skills for Planning with Bandits via Observing and
Learning How the World Works
- arxiv url: http://arxiv.org/abs/2207.08130v1
- Date: Sun, 17 Jul 2022 10:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 15:22:04.763625
- Title: Discover Life Skills for Planning with Bandits via Observing and
Learning How the World Works
- Title(参考訳): 世界がどのように機能するかを観察し学ぶことで、バンディットによる計画のためのライフスキルを見つける
- Authors: Tin Lai
- Abstract要約: 本研究では,世界との歴史的相互作用を観察し,学習することで,抽象的なスキルを創出するための新しい手法を提案する。
我々のフレームワークは、未知の前提条件下での一連のアクションを介してマルコフ状態空間モデルで動作する。
この計画手法は高次元状態領域において実験的に非常に競合的であることを示す。
- 参考スコア(独自算出の注目度): 3.0839245814393728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach for planning agents to compose abstract skills
via observing and learning from historical interactions with the world. Our
framework operates in a Markov state-space model via a set of actions under
unknown pre-conditions. We formulate skills as high-level abstract policies
that propose action plans based on the current state. Each policy learns new
plans by observing the states' transitions while the agent interacts with the
world. Such an approach automatically learns new plans to achieve specific
intended effects, but the success of such plans is often dependent on the
states in which they are applicable. Therefore, we formulate the evaluation of
such plans as infinitely many multi-armed bandit problems, where we balance the
allocation of resources on evaluating the success probability of existing arms
and exploring new options. The result is a planner capable of automatically
learning robust high-level skills under a noisy environment; such skills
implicitly learn the action pre-condition without explicit knowledge. We show
that this planning approach is experimentally very competitive in
high-dimensional state space domains.
- Abstract(参考訳): 本研究は,世界との歴史的交流からの観察と学習を通じて抽象的スキルを構成するための新しい手法を提案する。
我々のフレームワークは、未知の前提条件下での一連のアクションを介してマルコフ状態空間モデルで動作する。
我々は,現状に基づく行動計画を提案するハイレベルな抽象政策としてスキルを定式化する。
各政策は、エージェントが世界と対話している間に州の遷移を観察して新しい計画を学ぶ。
このようなアプローチは、特定の意図した効果を達成するための新しい計画を自動的に学習するが、そのような計画の成功は、しばしば適用可能な状態に依存する。
そこで我々は,既存兵器の成功確率の評価と新たな選択肢の探索に資源配分のバランスをとるため,無限に多数のマルチアームバンディット問題としてそのような計画の評価を定式化する。
その結果、雑音環境下でロバストなハイレベルスキルを自動的に学習することが可能なプランナーが、明示的な知識を伴わずに暗黙的に行動前条件を学習できる。
この計画手法は高次元状態領域において実験的に非常に競合的であることを示す。
関連論文リスト
- Agent Planning with World Knowledge Model [88.4897773735576]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。
我々はWKMを開発し,グローバルプランニングと動的状態知識を指導し,地域プランニングを支援する。
本手法は, 各種の強靭なベースラインと比較して, 優れた性能が得られる。
論文 参考訳(メタデータ) (2024-05-23T06:03:19Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Statler: State-Maintaining Language Models for Embodied Reasoning [19.884696137429813]
本研究では,大言語モデルに世界状態を推定するフレームワークであるStatlerを提案する。
そして、我々のフレームワークは、現在の世界状態の推定に対して各アクションを条件付けします。
複数のロボット計画タスクにおいて、強力な競合する手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-06-30T17:58:02Z) - Integrating Action Knowledge and LLMs for Task Planning and Situation
Handling in Open Worlds [10.077350377962482]
本稿では,オープンワールドなタスク計画と状況処理のための新しいフレームワークであるCOWPを紹介する。
COWPは、タスク指向のコモンセンス知識によって、動作の前提条件や効果を含む、ロボットの行動知識を動的に増強する。
実験結果から,本手法は,サービスタスクの成功率における文献の競争基準よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-27T22:30:15Z) - Learning Temporally Extended Skills in Continuous Domains as Symbolic
Actions for Planning [2.642698101441705]
長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。
本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2022-07-11T17:13:10Z) - Active Learning of Abstract Plan Feasibility [17.689758291966502]
本稿では,タスクに依存しない,好奇心を抱くロボットの探索を通じて,APF予測器を効率的に取得するための能動的学習手法を提案する。
アクティブラーニング戦略において,本システムでは,本システムでより少ないデータから学習できるように,実用不可能なサブシーケンス特性を活用して,候補計画の立案を行う。
物体が一様でない質量分布を持つ積層領域において,本システムは,400個の自己教師による相互作用において,APFモデルの実際のロボット学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-07-01T18:17:01Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。