論文の概要: Synthesis from Satisficing and Temporal Goals
- arxiv url: http://arxiv.org/abs/2205.10464v1
- Date: Fri, 20 May 2022 23:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 20:42:16.131904
- Title: Synthesis from Satisficing and Temporal Goals
- Title(参考訳): 満足感と時間的目標からの合成
- Authors: Suguman Bansal, Lydia Kavraki, Moshe Y. Vardi, Andrew Wells
- Abstract要約: 既存のアプローチでは、割引合成からの合成技術とDS報酬の最適化を組み合わせているが、音響アルゴリズムは得られていない。
合成と満足なDS報酬(しきい値を達成するリワード)を組み合わせた別のアプローチは、整数割引係数に対して健全で完備であるが、実際には分数割引係数が望まれる。
この研究は、DS報酬を分数割引係数で提示することから合成するための第1音素アルゴリズムへの既存の充足アプローチを拡張した。
- 参考スコア(独自算出の注目度): 21.14507575500482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reactive synthesis from high-level specifications that combine hard
constraints expressed in Linear Temporal Logic LTL with soft constraints
expressed by discounted-sum (DS) rewards has applications in planning and
reinforcement learning. An existing approach combines techniques from LTL
synthesis with optimization for the DS rewards but has failed to yield a sound
algorithm. An alternative approach combining LTL synthesis with satisficing DS
rewards (rewards that achieve a threshold) is sound and complete for integer
discount factors, but, in practice, a fractional discount factor is desired.
This work extends the existing satisficing approach, presenting the first sound
algorithm for synthesis from LTL and DS rewards with fractional discount
factors. The utility of our algorithm is demonstrated on robotic planning
domains.
- Abstract(参考訳): 線形時間論理LTLで表現されるハード制約とディスカウントサム(DS)報酬で表現されるソフト制約を組み合わせた高レベル仕様からの反応性合成は、計画と強化学習に応用できる。
既存のアプローチでは、LTL合成の技法とDS報酬の最適化を組み合わせているが、音響アルゴリズムは得られていない。
LTL合成と満足なDS報酬(しきい値を達成するリワード)を組み合わせた別のアプローチは、整数割引係数に対して健全で完備であるが、実際には分数割引係数が望まれる。
この研究は既存の満足度アプローチを拡張し、LTLとDSの報酬を分数割引係数で合成するための最初の音響アルゴリズムを提示する。
ロボット計画領域におけるアルゴリズムの有用性を実証する。
関連論文リスト
- Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - On-the-fly Synthesis for LTL over Finite Traces: An Efficient Approach that Counts [20.14001970300658]
トップダウン決定論的オートマトン構築に基づく有限トレース(LTLf)上での線形時間論理のオンザフライフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-14T06:52:58Z) - Guiding Enumerative Program Synthesis with Large Language Models [15.500250058226474]
本稿では,形式的合成ベンチマークを解くための大規模言語モデルの能力を評価する。
ワンショット合成が失敗すると,新しい列挙合成アルゴリズムを提案する。
形式的合成のためのスタンドアロンツールとしてGPT-3.5は,最先端の形式的合成アルゴリズムにより容易に性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-06T19:13:53Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Optimization-based Block Coordinate Gradient Coding for Mitigating
Partial Stragglers in Distributed Learning [58.91954425047425]
本稿では,分散学習における部分トラグラーの緩和を目的とした,新たな勾配符号化方式を提案する。
L の符号パラメータを L に表わした勾配座標符号化方式を提案する。
論文 参考訳(メタデータ) (2022-06-06T09:25:40Z) - Semantic Probabilistic Layers for Neuro-Symbolic Learning [83.25785999205932]
我々は構造化出力予測(SOP)のための予測層を設計する。
予測が事前に定義されたシンボリック制約のセットと一致していることを保証するため、任意のニューラルネットワークにプラグインすることができる。
我々のセマンティック確率層(SPL)は、構造化された出力空間上で複雑な相関や制約をモデル化することができる。
論文 参考訳(メタデータ) (2022-06-01T12:02:38Z) - Distributed Control using Reinforcement Learning with
Temporal-Logic-Based Reward Shaping [0.2320417845168326]
本研究では,異種ロボットの分散制御戦略を部分的に観測可能な環境下で合成するためのフレームワークを提案する。
提案手法では,合成問題をゲームとして定式化し,ポリシーグラフ法を用いて各エージェントのメモリによる制御戦略を求める。
我々はTLTLの量的意味論をゲームの報酬として使用し、さらに有限状態オートマトンを用いて学習プロセスのガイドと高速化を行う。
論文 参考訳(メタデータ) (2022-03-08T16:03:35Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Towards Neural-Guided Program Synthesis for Linear Temporal Logic
Specifications [26.547133495699093]
ニューラルネットワークを用いてQ関数を学習し、探索を誘導し、その後正当性を検証したプログラムを構築する。
提案手法は,検索と深層学習を組み合わせることで,合成を実現するのにユニークな手法である。
論文 参考訳(メタデータ) (2019-12-31T17:09:49Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。