論文の概要: LTLf Best-Effort Synthesis in Nondeterministic Planning Domains
- arxiv url: http://arxiv.org/abs/2308.15188v1
- Date: Tue, 29 Aug 2023 10:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:38:45.401445
- Title: LTLf Best-Effort Synthesis in Nondeterministic Planning Domains
- Title(参考訳): 非決定性計画領域におけるltlfベストエフォート合成
- Authors: Giuseppe De Giacomo, Gianmarco Parretti, Shufang Zhu
- Abstract要約: 完全可観測非決定性領域(FOND)におけるベストエフォート戦略(いわゆる計画)について検討する。
非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論合成手法を提案する。
- 参考スコア(独自算出の注目度): 27.106071554421664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study best-effort strategies (aka plans) in fully observable
nondeterministic domains (FOND) for goals expressed in Linear Temporal Logic on
Finite Traces (LTLf). The notion of best-effort strategy has been introduced to
also deal with the scenario when no agent strategy exists that fulfills the
goal against every possible nondeterministic environment reaction. Such
strategies fulfill the goal if possible, and do their best to do so otherwise.
We present a game-theoretic technique for synthesizing best-effort strategies
that exploit the specificity of nondeterministic planning domains. We formally
show its correctness and demonstrate its effectiveness experimentally,
exhibiting a much greater scalability with respect to a direct best-effort
synthesis approach based on re-expressing the planning domain as generic
environment specifications.
- Abstract(参考訳): 有限トレース(ltlf)上の線形時相論理で表される目標に対する完全可観測非決定性領域(fond)における最善の戦略(いわゆる計画)について検討する。
最善戦略の概念は、可能なあらゆる非決定論的環境反応に対する目標を達成するエージェント戦略が存在しない場合にも対処するために導入された。
このような戦略は可能ならば目標を達成し、そうしなければ最善を尽くします。
非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論手法を提案する。
我々はその正しさを正式に示し、その効果を実験的に実証し、計画領域を汎用環境仕様として再表現することに基づく直接的最善合成アプローチに関してはるかに高いスケーラビリティを示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - LLM-SAP: Large Language Model Situational Awareness Based Planning [0.0]
この研究は、大規模言語モデルにおける状況認識に基づく創発的計画能力の評価の先駆者である。
i) 標準化された評価のための新しいベンチマークとメトリクス、(ii) 進捗を加速するためのユニークなデータセット、(iii) 状況に敏感な計画タスクにおいて計画性能を著しく向上させるマルチエージェントスキームの実証に寄与する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z) - Abstraction of Nondeterministic Situation Calculus Action Theories --
Extended Version [23.24285208243607]
非決定論的領域で動作するエージェントの動作を抽象化するための一般的なフレームワークを開発する。
我々は抽象的かつ具体的な非決定論的基本作用論を持っていると仮定する。
エージェントが目標/完了タスクを抽象レベルで達成するための(強いFOND)計画/戦略を持っている場合、具体レベルでは非決定論的抽象アクションを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-05-20T05:42:38Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Recognizing LTLf/PLTLf Goals in Fully Observable Non-Deterministic
Domain Models [26.530274055506453]
目標認識(Goal Recognition)は、エージェントが目標とする正しい目的の目標を特定するタスクです。
我々は,時間的拡張目標を認識可能な新しいアプローチを開発した。
論文 参考訳(メタデータ) (2021-03-22T09:46:03Z) - Near-Optimal Reactive Synthesis Incorporating Runtime Information [28.25296947005914]
我々は、動的環境におけるミッション仕様を満たす戦略を計算し、最適な反応性合成の問題を考察する。
実行時にのみ利用可能なタスククリティカルな情報をストラテジー合成に組み込んでパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-07-31T14:41:35Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。