論文の概要: Deliberative Acting, Online Planning and Learning with Hierarchical
Operational Models
- arxiv url: http://arxiv.org/abs/2010.01909v3
- Date: Mon, 15 Nov 2021 21:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:43:43.868591
- Title: Deliberative Acting, Online Planning and Learning with Hierarchical
Operational Models
- Title(参考訳): 階層的運用モデルによる意図的行動・オンライン計画・学習
- Authors: Sunandita Patra, James Mason, Malik Ghallab, Dana Nau, Paolo Traverso
- Abstract要約: AI研究では、アクションの計画は通常、アクションの結果として起こる可能性のあることを抽象的に特定するアクションの記述モデルを使用してきた。
計画されたアクションの実行には、リッチな計算制御構造とクローズドループオンライン意思決定を使用する運用モデルが必要である。
我々は、計画と行動の両方が同じ運用モデルを使用する統合された行動計画システムを実装している。
- 参考スコア(独自算出の注目度): 5.597986898418404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In AI research, synthesizing a plan of action has typically used descriptive
models of the actions that abstractly specify what might happen as a result of
an action, and are tailored for efficiently computing state transitions.
However, executing the planned actions has needed operational models, in which
rich computational control structures and closed-loop online decision-making
are used to specify how to perform an action in a nondeterministic execution
context, react to events and adapt to an unfolding situation. Deliberative
actors, which integrate acting and planning, have typically needed to use both
of these models together -- which causes problems when attempting to develop
the different models, verify their consistency, and smoothly interleave acting
and planning.
As an alternative, we define and implement an integrated acting and planning
system in which both planning and acting use the same operational models. These
rely on hierarchical task-oriented refinement methods offering rich control
structures. The acting component, called Reactive Acting Engine (RAE), is
inspired by the well-known PRS system. At each decision step, RAE can get
advice from a planner for a near-optimal choice with respect to a utility
function. The anytime planner uses a UCT-like Monte Carlo Tree Search
procedure, called UPOM, whose rollouts are simulations of the actor's
operational models. We also present learning strategies for use with RAE and
UPOM that acquire, from online acting experiences and/or simulated planning
results, a mapping from decision contexts to method instances as well as a
heuristic function to guide UPOM. We demonstrate the asymptotic convergence of
UPOM towards optimal methods in static domains, and show experimentally that
UPOM and the learning strategies significantly improve the acting efficiency
and robustness.
- Abstract(参考訳): ai研究において、行動計画の合成は通常、行動の結果として何が起こるかを抽象的に指定し、状態遷移を効率的に計算するために調整された行動の記述モデルを使用してきた。
しかし、計画されたアクションの実行には運用モデルが必要であり、リッチな計算制御構造とクローズドループオンライン意思決定を使用して、非決定論的実行コンテキストにおけるアクションの実行方法を特定し、イベントに反応し、展開する状況に適応する。
行動と計画を統合した熟考的アクターは、通常、これらのモデルの両方を一緒に使用する必要がある -- 異なるモデルの開発、一貫性の検証、行動と計画の円滑なインターリーブといった問題を引き起こします。
代替案として,計画と行動の両方が同じ運用モデルを使用する統合的な行動計画システムを定義し,実装する。
これらはリッチな制御構造を提供する階層型タスク指向リファインメントメソッドに依存している。
Reactive Acting Engine (RAE)と呼ばれるアクションコンポーネントは、よく知られたPRSシステムにインスパイアされている。
各決定ステップにおいて、RAEは実用機能に関してほぼ最適な選択をプランナーからアドバイスを得ることができる。
任意のプランナーはUCTに似たモンテカルロ木探索手順(UPOM)を使い、そのロールアウトは俳優の操作モデルのシミュレーションである。
また,rae や upom で利用するための学習戦略を提示し,オンライン行動経験やシミュレーション計画結果,意思決定コンテキストからメソッドインスタンスへのマッピング,そして upom を導くヒューリスティック関数について述べる。
我々は,upomの静的領域における最適手法への漸近収束を実証し,upomと学習戦略が動作効率とロバスト性を大幅に改善することを示す。
関連論文リスト
- Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Meta-operators for Enabling Parallel Planning Using Deep Reinforcement Learning [0.8287206589886881]
複数の計画演算子を同時に適用した結果,メタ演算子の概念を導入する。
RL アクション空間にメタ演算子を含めることで、並列計画のような新しい計画視点を RL を用いて解決できることが示される。
論文 参考訳(メタデータ) (2024-03-13T19:00:36Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Integrating Acting, Planning and Learning in Hierarchical Operational
Models [7.009282389520865]
我々はRAE(Refinement Acting Engine)のための新しい計画と学習アルゴリズムを提案する。
我々の計画手法であるUPOMは、作業や状況に最適な手法を見つけるために、運用モデルの空間でUTTに似た探索を行う。
実験の結果,UPOMと学習戦略は,4つのテスト領域におけるRAEの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-03-09T06:05:25Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。