論文の概要: LTLf Best-Effort Synthesis in Nondeterministic Planning Domains
- arxiv url: http://arxiv.org/abs/2308.15188v1
- Date: Tue, 29 Aug 2023 10:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:38:45.401445
- Title: LTLf Best-Effort Synthesis in Nondeterministic Planning Domains
- Title(参考訳): 非決定性計画領域におけるltlfベストエフォート合成
- Authors: Giuseppe De Giacomo, Gianmarco Parretti, Shufang Zhu
- Abstract要約: 完全可観測非決定性領域(FOND)におけるベストエフォート戦略(いわゆる計画)について検討する。
非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論合成手法を提案する。
- 参考スコア(独自算出の注目度): 27.106071554421664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study best-effort strategies (aka plans) in fully observable
nondeterministic domains (FOND) for goals expressed in Linear Temporal Logic on
Finite Traces (LTLf). The notion of best-effort strategy has been introduced to
also deal with the scenario when no agent strategy exists that fulfills the
goal against every possible nondeterministic environment reaction. Such
strategies fulfill the goal if possible, and do their best to do so otherwise.
We present a game-theoretic technique for synthesizing best-effort strategies
that exploit the specificity of nondeterministic planning domains. We formally
show its correctness and demonstrate its effectiveness experimentally,
exhibiting a much greater scalability with respect to a direct best-effort
synthesis approach based on re-expressing the planning domain as generic
environment specifications.
- Abstract(参考訳): 有限トレース(ltlf)上の線形時相論理で表される目標に対する完全可観測非決定性領域(fond)における最善の戦略(いわゆる計画)について検討する。
最善戦略の概念は、可能なあらゆる非決定論的環境反応に対する目標を達成するエージェント戦略が存在しない場合にも対処するために導入された。
このような戦略は可能ならば目標を達成し、そうしなければ最善を尽くします。
非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論手法を提案する。
我々はその正しさを正式に示し、その効果を実験的に実証し、計画領域を汎用環境仕様として再表現することに基づく直接的最善合成アプローチに関してはるかに高いスケーラビリティを示す。
関連論文リスト
- EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。
LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。
これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文 参考訳(メタデータ) (2025-01-30T22:21:12Z) - Chasing Progress, Not Perfection: Revisiting Strategies for End-to-End LLM Plan Generation [34.636688162807836]
本研究では、エンド・ツー・エンドのLSMプランナを開発することで、最近の戦略を再評価する。
プランニングインスタンスのコーパス上での微調整 LLM は、ロバストなプランニングスキルに繋がらないことがわかった。
Chain-of-Thoughtを含む様々な戦略は、計画の実行可能性を高める。
論文 参考訳(メタデータ) (2024-12-14T04:23:14Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Abstraction of Nondeterministic Situation Calculus Action Theories --
Extended Version [23.24285208243607]
非決定論的領域で動作するエージェントの動作を抽象化するための一般的なフレームワークを開発する。
我々は抽象的かつ具体的な非決定論的基本作用論を持っていると仮定する。
エージェントが目標/完了タスクを抽象レベルで達成するための(強いFOND)計画/戦略を持っている場合、具体レベルでは非決定論的抽象アクションを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-05-20T05:42:38Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Recognizing LTLf/PLTLf Goals in Fully Observable Non-Deterministic
Domain Models [26.530274055506453]
目標認識(Goal Recognition)は、エージェントが目標とする正しい目的の目標を特定するタスクです。
我々は,時間的拡張目標を認識可能な新しいアプローチを開発した。
論文 参考訳(メタデータ) (2021-03-22T09:46:03Z) - Near-Optimal Reactive Synthesis Incorporating Runtime Information [28.25296947005914]
我々は、動的環境におけるミッション仕様を満たす戦略を計算し、最適な反応性合成の問題を考察する。
実行時にのみ利用可能なタスククリティカルな情報をストラテジー合成に組み込んでパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-07-31T14:41:35Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。