Fugu-MT 論文翻訳(概要): Deliberative Acting, Online Planning and Learning with Hierarchical Operational Models

論文の概要: Deliberative Acting, Online Planning and Learning with Hierarchical Operational Models

arxiv url: http://arxiv.org/abs/2010.01909v3
Date: Mon, 15 Nov 2021 21:12:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 01:43:43.868591
Title: Deliberative Acting, Online Planning and Learning with Hierarchical Operational Models
Title（参考訳）: 階層的運用モデルによる意図的行動・オンライン計画・学習
Authors: Sunandita Patra, James Mason, Malik Ghallab, Dana Nau, Paolo Traverso
Abstract要約: AI研究では、アクションの計画は通常、アクションの結果として起こる可能性のあることを抽象的に特定するアクションの記述モデルを使用してきた。計画されたアクションの実行には、リッチな計算制御構造とクローズドループオンライン意思決定を使用する運用モデルが必要である。我々は、計画と行動の両方が同じ運用モデルを使用する統合された行動計画システムを実装している。
参考スコア（独自算出の注目度）: 5.597986898418404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In AI research, synthesizing a plan of action has typically used descriptive models of the actions that abstractly specify what might happen as a result of an action, and are tailored for efficiently computing state transitions. However, executing the planned actions has needed operational models, in which rich computational control structures and closed-loop online decision-making are used to specify how to perform an action in a nondeterministic execution context, react to events and adapt to an unfolding situation. Deliberative actors, which integrate acting and planning, have typically needed to use both of these models together -- which causes problems when attempting to develop the different models, verify their consistency, and smoothly interleave acting and planning. As an alternative, we define and implement an integrated acting and planning system in which both planning and acting use the same operational models. These rely on hierarchical task-oriented refinement methods offering rich control structures. The acting component, called Reactive Acting Engine (RAE), is inspired by the well-known PRS system. At each decision step, RAE can get advice from a planner for a near-optimal choice with respect to a utility function. The anytime planner uses a UCT-like Monte Carlo Tree Search procedure, called UPOM, whose rollouts are simulations of the actor's operational models. We also present learning strategies for use with RAE and UPOM that acquire, from online acting experiences and/or simulated planning results, a mapping from decision contexts to method instances as well as a heuristic function to guide UPOM. We demonstrate the asymptotic convergence of UPOM towards optimal methods in static domains, and show experimentally that UPOM and the learning strategies significantly improve the acting efficiency and robustness.
Abstract（参考訳）: ai研究において、行動計画の合成は通常、行動の結果として何が起こるかを抽象的に指定し、状態遷移を効率的に計算するために調整された行動の記述モデルを使用してきた。しかし、計画されたアクションの実行には運用モデルが必要であり、リッチな計算制御構造とクローズドループオンライン意思決定を使用して、非決定論的実行コンテキストにおけるアクションの実行方法を特定し、イベントに反応し、展開する状況に適応する。行動と計画を統合した熟考的アクターは、通常、これらのモデルの両方を一緒に使用する必要がある -- 異なるモデルの開発、一貫性の検証、行動と計画の円滑なインターリーブといった問題を引き起こします。代替案として,計画と行動の両方が同じ運用モデルを使用する統合的な行動計画システムを定義し,実装する。これらはリッチな制御構造を提供する階層型タスク指向リファインメントメソッドに依存している。 Reactive Acting Engine (RAE)と呼ばれるアクションコンポーネントは、よく知られたPRSシステムにインスパイアされている。各決定ステップにおいて、RAEは実用機能に関してほぼ最適な選択をプランナーからアドバイスを得ることができる。任意のプランナーはUCTに似たモンテカルロ木探索手順(UPOM)を使い、そのロールアウトは俳優の操作モデルのシミュレーションである。また,rae や upom で利用するための学習戦略を提示し,オンライン行動経験やシミュレーション計画結果,意思決定コンテキストからメソッドインスタンスへのマッピング,そして upom を導くヒューリスティック関数について述べる。我々は,upomの静的領域における最適手法への漸近収束を実証し,upomと学習戦略が動作効率とロバスト性を大幅に改善することを示す。

関連論文リスト

Acting and Planning with Hierarchical Operational Models on a Mobile Robot: A Study with RAE+UPOM [5.758011837296545]
本稿では,行動と計画の両方の階層的操作モデルを共有する,アクター・プランナ統合システムの最初の物理的展開について述べる。 RAE+UPOMを実環境に配置した移動マニピュレータにオブジェクト収集タスクを実装した。
論文参考訳（メタデータ） (2025-07-15T14:20:26Z)
Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-05-12T12:38:20Z)
Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文参考訳（メタデータ） (2025-04-23T17:53:34Z)
Interpreting Emergent Planning in Model-Free Reinforcement Learning [13.820891288919002]
モデルフリー強化学習エージェントが計画を学ぶことができるという最初の証拠を提示する。これは、ソコバンのモデルフリーエージェントに概念ベースの解釈可能性に基づく方法論を適用することで達成される。
論文参考訳（メタデータ） (2025-04-02T16:24:23Z)
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文参考訳（メタデータ） (2025-02-26T10:16:57Z)
Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文参考訳（メタデータ） (2024-08-02T18:07:53Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Meta-operators for Enabling Parallel Planning Using Deep Reinforcement Learning [0.8287206589886881]
複数の計画演算子を同時に適用した結果,メタ演算子の概念を導入する。 RL アクション空間にメタ演算子を含めることで、並列計画のような新しい計画視点を RL を用いて解決できることが示される。
論文参考訳（メタデータ） (2024-03-13T19:00:36Z)
AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文参考訳（メタデータ） (2023-05-26T05:52:27Z)
A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文参考訳（メタデータ） (2021-06-03T19:35:19Z)
Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文参考訳（メタデータ） (2020-07-14T17:25:27Z)
Integrating Acting, Planning and Learning in Hierarchical Operational Models [7.009282389520865]
我々はRAE(Refinement Acting Engine)のための新しい計画と学習アルゴリズムを提案する。我々の計画手法であるUPOMは、作業や状況に最適な手法を見つけるために、運用モデルの空間でUTTに似た探索を行う。実験の結果,UPOMと学習戦略は,4つのテスト領域におけるRAEの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2020-03-09T06:05:25Z)
STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-30T17:08:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。