論文の概要: LTLf Synthesis on First-Order Agent Programs in Nondeterministic Environments
- arxiv url: http://arxiv.org/abs/2410.00726v2
- Date: Fri, 20 Dec 2024 12:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:14.914366
- Title: LTLf Synthesis on First-Order Agent Programs in Nondeterministic Environments
- Title(参考訳): 非決定論的環境における一階エージェントプログラムのLTLf合成
- Authors: Till Hofmann, Jens Claßen,
- Abstract要約: Gologで表現された高レベルエージェントプログラムのポリシーの合成について検討する。
一階アクション理論の表現型クラスを活用することで、プログラムの実行をカプセル化し、時間的目標の満足度を追跡する有限ゲームアリーナを構築する。
この作業はエージェントプログラミングと時間論理合成を橋渡しし、非決定論的環境における堅牢なエージェント動作のためのフレームワークを提供する。
- 参考スコア(独自算出の注目度): 2.209921757303168
- License:
- Abstract: We investigate the synthesis of policies for high-level agent programs expressed in Golog, a language based on situation calculus that incorporates nondeterministic programming constructs. Unlike traditional approaches for program realization that assume full agent control or rely on incremental search, we address scenarios where environmental nondeterminism significantly influences program outcomes. Our synthesis problem involves deriving a policy that successfully realizes a given Golog program while ensuring the satisfaction of a temporal specification, expressed in Linear Temporal Logic on finite traces (LTLf), across all possible environmental behaviors. By leveraging an expressive class of first-order action theories, we construct a finite game arena that encapsulates program executions and tracks the satisfaction of the temporal goal. A game-theoretic approach is employed to derive such a policy. Experimental results demonstrate this approach's feasibility in domains with unbounded objects and non-local effects. This work bridges agent programming and temporal logic synthesis, providing a framework for robust agent behavior in nondeterministic environments.
- Abstract(参考訳): 非決定論的プログラミング構造を組み込んだ状況計算に基づく言語であるGologで表現された高レベルエージェントプログラムのポリシーの合成について検討する。
エージェントの完全な制御やインクリメンタル検索に依存する従来のプログラム実現手法とは異なり、環境非決定主義がプログラムの結果に大きな影響を与えるシナリオに対処する。
本問題では, 有限トレース上での線形時間論理(LTLf)で表される時間的仕様の満足度を確保しつつ, 任意の環境条件下でのGologプログラムの実現を成功させる政策を導出する。
一階アクション理論の表現型クラスを活用することで、プログラムの実行をカプセル化し、時間的目標の満足度を追跡する有限ゲームアリーナを構築する。
このような政策を導出するためにゲーム理論のアプローチが用いられる。
実験により、非有界な対象と非局所効果を持つ領域におけるこのアプローチの実現可能性を示す。
この作業はエージェントプログラミングと時間論理合成を橋渡しし、非決定論的環境における堅牢なエージェント動作のためのフレームワークを提供する。
関連論文リスト
- LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。
LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。
これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文 参考訳(メタデータ) (2025-01-30T22:21:12Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Verifiable Planning in Expected Reward Multichain MDPs [20.456052208569115]
エージェントの意思決定方針を導出する定常計画問題について検討する。
提案プログラムに対する最適解が、厳密な行動保証を伴う定常的な政策をもたらすことを証明した。
論文 参考訳(メタデータ) (2020-12-03T18:54:24Z) - Optimal Neural Program Synthesis from Multimodal Specifications [45.35689345004124]
マルチモーダルプログラム合成は、プログラム合成を挑戦的な設定に拡張する魅力的な方法である。
本稿では,ユーザが提供する制約を満たすプログラムを見つけることを目的とした,最適なニューラルシンセサイザー手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T20:51:21Z) - Temporal Answer Set Programming [3.263632801414296]
本稿では,その知識表現と宣言的問題解決への応用の観点から,時間論理プログラミングの概要を述べる。
本研究は,TEL(Temporal Equilibrium Logic)と呼ばれる非単調な形式論の最近の成果に焦点を当てる。
第2部では,ASP.NET に近い時間論理プログラムと呼ばれる構文的断片を定義し,この問題が解決器 TEINGO の構築においてどのように活用されたかを説明する。
論文 参考訳(メタデータ) (2020-09-14T16:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。