論文の概要: Deliberative Acting, Online Planning and Learning with Hierarchical
Operational Models
- arxiv url: http://arxiv.org/abs/2010.01909v3
- Date: Mon, 15 Nov 2021 21:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:43:43.868591
- Title: Deliberative Acting, Online Planning and Learning with Hierarchical
Operational Models
- Title(参考訳): 階層的運用モデルによる意図的行動・オンライン計画・学習
- Authors: Sunandita Patra, James Mason, Malik Ghallab, Dana Nau, Paolo Traverso
- Abstract要約: AI研究では、アクションの計画は通常、アクションの結果として起こる可能性のあることを抽象的に特定するアクションの記述モデルを使用してきた。
計画されたアクションの実行には、リッチな計算制御構造とクローズドループオンライン意思決定を使用する運用モデルが必要である。
我々は、計画と行動の両方が同じ運用モデルを使用する統合された行動計画システムを実装している。
- 参考スコア(独自算出の注目度): 5.597986898418404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In AI research, synthesizing a plan of action has typically used descriptive
models of the actions that abstractly specify what might happen as a result of
an action, and are tailored for efficiently computing state transitions.
However, executing the planned actions has needed operational models, in which
rich computational control structures and closed-loop online decision-making
are used to specify how to perform an action in a nondeterministic execution
context, react to events and adapt to an unfolding situation. Deliberative
actors, which integrate acting and planning, have typically needed to use both
of these models together -- which causes problems when attempting to develop
the different models, verify their consistency, and smoothly interleave acting
and planning.
As an alternative, we define and implement an integrated acting and planning
system in which both planning and acting use the same operational models. These
rely on hierarchical task-oriented refinement methods offering rich control
structures. The acting component, called Reactive Acting Engine (RAE), is
inspired by the well-known PRS system. At each decision step, RAE can get
advice from a planner for a near-optimal choice with respect to a utility
function. The anytime planner uses a UCT-like Monte Carlo Tree Search
procedure, called UPOM, whose rollouts are simulations of the actor's
operational models. We also present learning strategies for use with RAE and
UPOM that acquire, from online acting experiences and/or simulated planning
results, a mapping from decision contexts to method instances as well as a
heuristic function to guide UPOM. We demonstrate the asymptotic convergence of
UPOM towards optimal methods in static domains, and show experimentally that
UPOM and the learning strategies significantly improve the acting efficiency
and robustness.
- Abstract(参考訳): ai研究において、行動計画の合成は通常、行動の結果として何が起こるかを抽象的に指定し、状態遷移を効率的に計算するために調整された行動の記述モデルを使用してきた。
しかし、計画されたアクションの実行には運用モデルが必要であり、リッチな計算制御構造とクローズドループオンライン意思決定を使用して、非決定論的実行コンテキストにおけるアクションの実行方法を特定し、イベントに反応し、展開する状況に適応する。
行動と計画を統合した熟考的アクターは、通常、これらのモデルの両方を一緒に使用する必要がある -- 異なるモデルの開発、一貫性の検証、行動と計画の円滑なインターリーブといった問題を引き起こします。
代替案として,計画と行動の両方が同じ運用モデルを使用する統合的な行動計画システムを定義し,実装する。
これらはリッチな制御構造を提供する階層型タスク指向リファインメントメソッドに依存している。
Reactive Acting Engine (RAE)と呼ばれるアクションコンポーネントは、よく知られたPRSシステムにインスパイアされている。
各決定ステップにおいて、RAEは実用機能に関してほぼ最適な選択をプランナーからアドバイスを得ることができる。
任意のプランナーはUCTに似たモンテカルロ木探索手順(UPOM)を使い、そのロールアウトは俳優の操作モデルのシミュレーションである。
また,rae や upom で利用するための学習戦略を提示し,オンライン行動経験やシミュレーション計画結果,意思決定コンテキストからメソッドインスタンスへのマッピング,そして upom を導くヒューリスティック関数について述べる。
我々は,upomの静的領域における最適手法への漸近収束を実証し,upomと学習戦略が動作効率とロバスト性を大幅に改善することを示す。
関連論文リスト
- Meta-operators for Enabling Parallel Planning Using Deep Reinforcement Learning [0.8287206589886881]
複数の計画演算子を同時に適用した結果,メタ演算子の概念を導入する。
RL アクション空間にメタ演算子を含めることで、並列計画のような新しい計画視点を RL を用いて解決できることが示される。
論文 参考訳(メタデータ) (2024-03-13T19:00:36Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Personalized Decision Supports based on Theory of Mind Modeling and
Explainable Reinforcement Learning [0.9071985476473737]
我々は、心の理論(ToM)モデリングと説明可能な強化学習(XRL)を組み合わせた、パーソナライズされた意思決定支援システムを提案する。
提案システムは,エンドユーザが容易に解釈可能な,正確でパーソナライズされた介入を生成する。
論文 参考訳(メタデータ) (2023-12-13T00:37:17Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models [87.8282946526824]
EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Planning with Sequence Models through Iterative Energy Minimization [22.594413287842574]
本稿では,反復的エネルギー最小化の考え方に基づいて,計画とシーケンスモデルを統合するためのアプローチを提案する。
マスク付き言語モデルを用いて、行動軌跡上の暗黙のエネルギー関数を捕捉し、最小エネルギーの行動軌跡を見つけるための計画を立てる。
本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。
論文 参考訳(メタデータ) (2023-03-28T17:53:22Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Integrating Acting, Planning and Learning in Hierarchical Operational
Models [7.009282389520865]
我々はRAE(Refinement Acting Engine)のための新しい計画と学習アルゴリズムを提案する。
我々の計画手法であるUPOMは、作業や状況に最適な手法を見つけるために、運用モデルの空間でUTTに似た探索を行う。
実験の結果,UPOMと学習戦略は,4つのテスト領域におけるRAEの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-03-09T06:05:25Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。