論文の概要: LTLf Best-Effort Synthesis in Nondeterministic Planning Domains
- arxiv url: http://arxiv.org/abs/2308.15188v1
- Date: Tue, 29 Aug 2023 10:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:38:45.401445
- Title: LTLf Best-Effort Synthesis in Nondeterministic Planning Domains
- Title(参考訳): 非決定性計画領域におけるltlfベストエフォート合成
- Authors: Giuseppe De Giacomo, Gianmarco Parretti, Shufang Zhu
- Abstract要約: 完全可観測非決定性領域(FOND)におけるベストエフォート戦略(いわゆる計画)について検討する。
非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論合成手法を提案する。
- 参考スコア(独自算出の注目度): 27.106071554421664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study best-effort strategies (aka plans) in fully observable
nondeterministic domains (FOND) for goals expressed in Linear Temporal Logic on
Finite Traces (LTLf). The notion of best-effort strategy has been introduced to
also deal with the scenario when no agent strategy exists that fulfills the
goal against every possible nondeterministic environment reaction. Such
strategies fulfill the goal if possible, and do their best to do so otherwise.
We present a game-theoretic technique for synthesizing best-effort strategies
that exploit the specificity of nondeterministic planning domains. We formally
show its correctness and demonstrate its effectiveness experimentally,
exhibiting a much greater scalability with respect to a direct best-effort
synthesis approach based on re-expressing the planning domain as generic
environment specifications.
- Abstract(参考訳): 有限トレース(ltlf)上の線形時相論理で表される目標に対する完全可観測非決定性領域(fond)における最善の戦略(いわゆる計画)について検討する。
最善戦略の概念は、可能なあらゆる非決定論的環境反応に対する目標を達成するエージェント戦略が存在しない場合にも対処するために導入された。
このような戦略は可能ならば目標を達成し、そうしなければ最善を尽くします。
非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論手法を提案する。
我々はその正しさを正式に示し、その効果を実験的に実証し、計画領域を汎用環境仕様として再表現することに基づく直接的最善合成アプローチに関してはるかに高いスケーラビリティを示す。
関連論文リスト
- Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - Abstraction of Nondeterministic Situation Calculus Action Theories --
Extended Version [23.24285208243607]
非決定論的領域で動作するエージェントの動作を抽象化するための一般的なフレームワークを開発する。
我々は抽象的かつ具体的な非決定論的基本作用論を持っていると仮定する。
エージェントが目標/完了タスクを抽象レベルで達成するための(強いFOND)計画/戦略を持っている場合、具体レベルでは非決定論的抽象アクションを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-05-20T05:42:38Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Recognizing LTLf/PLTLf Goals in Fully Observable Non-Deterministic
Domain Models [26.530274055506453]
目標認識(Goal Recognition)は、エージェントが目標とする正しい目的の目標を特定するタスクです。
我々は,時間的拡張目標を認識可能な新しいアプローチを開発した。
論文 参考訳(メタデータ) (2021-03-22T09:46:03Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z) - Near-Optimal Reactive Synthesis Incorporating Runtime Information [28.25296947005914]
我々は、動的環境におけるミッション仕様を満たす戦略を計算し、最適な反応性合成の問題を考察する。
実行時にのみ利用可能なタスククリティカルな情報をストラテジー合成に組み込んでパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-07-31T14:41:35Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。