Fugu-MT 論文翻訳(概要): LTLf Best-Effort Synthesis in Nondeterministic Planning Domains

論文の概要: LTLf Best-Effort Synthesis in Nondeterministic Planning Domains

arxiv url: http://arxiv.org/abs/2308.15188v1
Date: Tue, 29 Aug 2023 10:10:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-30 14:38:45.401445
Title: LTLf Best-Effort Synthesis in Nondeterministic Planning Domains
Title（参考訳）: 非決定性計画領域におけるltlfベストエフォート合成
Authors: Giuseppe De Giacomo, Gianmarco Parretti, Shufang Zhu
Abstract要約: 完全可観測非決定性領域(FOND)におけるベストエフォート戦略(いわゆる計画)について検討する。非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論合成手法を提案する。
参考スコア（独自算出の注目度）: 27.106071554421664
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study best-effort strategies (aka plans) in fully observable nondeterministic domains (FOND) for goals expressed in Linear Temporal Logic on Finite Traces (LTLf). The notion of best-effort strategy has been introduced to also deal with the scenario when no agent strategy exists that fulfills the goal against every possible nondeterministic environment reaction. Such strategies fulfill the goal if possible, and do their best to do so otherwise. We present a game-theoretic technique for synthesizing best-effort strategies that exploit the specificity of nondeterministic planning domains. We formally show its correctness and demonstrate its effectiveness experimentally, exhibiting a much greater scalability with respect to a direct best-effort synthesis approach based on re-expressing the planning domain as generic environment specifications.
Abstract（参考訳）: 有限トレース(ltlf)上の線形時相論理で表される目標に対する完全可観測非決定性領域(fond)における最善の戦略(いわゆる計画)について検討する。最善戦略の概念は、可能なあらゆる非決定論的環境反応に対する目標を達成するエージェント戦略が存在しない場合にも対処するために導入された。このような戦略は可能ならば目標を達成し、そうしなければ最善を尽くします。非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論手法を提案する。我々はその正しさを正式に示し、その効果を実験的に実証し、計画領域を汎用環境仕様として再表現することに基づく直接的最善合成アプローチに関してはるかに高いスケーラビリティを示す。

関連論文リスト

Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-28T07:21:37Z)
Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning [51.54559117314768]
最近の研究は、時間プランナーの性能向上のためのガイダンスの合成に強化学習(Reinforcement Learning, RL)を用いることを検討した。本稿では,RLと計画段階の両方において,シンボリックスが提供した情報を活用することに焦点を当てた学習計画フレームワークの進化を提案する。
論文参考訳（メタデータ） (2025-05-19T17:19:13Z)
LTLf Adaptive Synthesis for Multi-Tier Goals in Nondeterministic Domains [24.117872352200948]
多層目標を達成するための適応戦略を合成する合成関数の変種について検討する。完全かつ健全な適応戦略を計算するためのゲーム理論技術を提供する。
論文参考訳（メタデータ） (2025-04-29T17:53:16Z)
Global-Decision-Focused Neural ODEs for Proactive Grid Resilience Management [50.34345101758248]
本稿では,機能停止予測とグローバルに最適化された介入を統合するフレームワークPATOGを提案する。提案手法は,空間的かつ時間的に整合性のある意思決定を保証し,予測精度と操作効率を両立させる。合成および実世界のデータセットの実験では、停止予測一貫性とグリッドレジリエンスが大幅に改善された。
論文参考訳（メタデータ） (2025-02-25T16:15:35Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。 LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文参考訳（メタデータ） (2025-01-30T22:21:12Z)
Chasing Progress, Not Perfection: Revisiting Strategies for End-to-End LLM Plan Generation [34.636688162807836]
本研究では、エンド・ツー・エンドのLSMプランナを開発することで、最近の戦略を再評価する。プランニングインスタンスのコーパス上での微調整 LLM は、ロバストなプランニングスキルに繋がらないことがわかった。 Chain-of-Thoughtを含む様々な戦略は、計画の実行可能性を高める。
論文参考訳（メタデータ） (2024-12-14T04:23:14Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文参考訳（メタデータ） (2024-01-05T05:28:40Z)
Abstraction of Nondeterministic Situation Calculus Action Theories -- Extended Version [23.24285208243607]
非決定論的領域で動作するエージェントの動作を抽象化するための一般的なフレームワークを開発する。我々は抽象的かつ具体的な非決定論的基本作用論を持っていると仮定する。エージェントが目標/完了タスクを抽象レベルで達成するための(強いFOND)計画/戦略を持っている場合、具体レベルでは非決定論的抽象アクションを常に実行可能であることを示す。
論文参考訳（メタデータ） (2023-05-20T05:42:38Z)
Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文参考訳（メタデータ） (2023-03-20T14:51:10Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Exploration Policies for On-the-Fly Controller Synthesis: A Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文参考訳（メタデータ） (2022-10-07T20:28:25Z)
Recognizing LTLf/PLTLf Goals in Fully Observable Non-Deterministic Domain Models [26.530274055506453]
目標認識(Goal Recognition)は、エージェントが目標とする正しい目的の目標を特定するタスクです。我々は,時間的拡張目標を認識可能な新しいアプローチを開発した。
論文参考訳（メタデータ） (2021-03-22T09:46:03Z)
Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文参考訳（メタデータ） (2020-10-25T04:36:20Z)
Near-Optimal Reactive Synthesis Incorporating Runtime Information [28.25296947005914]
我々は、動的環境におけるミッション仕様を満たす戦略を計算し、最適な反応性合成の問題を考察する。実行時にのみ利用可能なタスククリティカルな情報をストラテジー合成に組み込んでパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-07-31T14:41:35Z)
Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。 GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文参考訳（メタデータ） (2020-02-28T09:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。