論文の概要: Value Functions for Temporal Logic: Optimal Policies and Safety Filters
- arxiv url: http://arxiv.org/abs/2605.01051v1
- Date: Fri, 01 May 2026 19:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.55791
- Title: Value Functions for Temporal Logic: Optimal Policies and Safety Filters
- Title(参考訳): 時間論理の値関数:最適ポリシと安全フィルタ
- Authors: Oswin So, William Sharpless, Sylvia Herbert, Chuchu Fan,
- Abstract要約: 値の最適性とポリシーの最適性の関係は、未計算の無限水平設定において微妙になる。
本稿では、Q関数が複雑なTL仕様の安全フィルタとして機能し、単純な回避タスクや到達回避タスクを超えて事前結果を拡張する方法を示す。
- 参考スコア(独自算出の注目度): 19.66477177778816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Bellman equations for basic reach, avoid, and reach-avoid problems are well studied, the relationship between value optimality and policy optimality becomes subtle in the undiscounted infinite-horizon setting, particularly for more complicated tasks. Greedily maximizing the Q-function can produce policies that indefinitely defer task completion for reach-avoid problems, or equivalently, Until specifications, even when the value function is optimal. Building upon recent results decomposing the value function for temporal logic (TL) into a graph of constituent value functions, we construct non-Markovian policies based on state history that avoid this pathology and prove their optimality with respect to the quantitative robustness score for nested Until, Globally, and Globally-Until specifications. We further show how the Q function can serve as a safety filter for complex TL specifications, extending prior results beyond simple avoid or reach-avoid tasks.
- Abstract(参考訳): ベーシックリーチ、回避、リーチエイド問題に対するベルマン方程式はよく研究されているが、値の最適性とポリシーの最適性の関係は、特により複雑なタスクにおいて、計算されていない無限水平設定において微妙になる。
Q-関数を安全に最大化することは、値関数が最適である場合でも、到達不能な問題に対するタスク完備化を無期限に延期するポリシーを生成することができる。
時間論理(TL)の値関数を構成値関数のグラフに分解した最近の結果に基づいて、我々は、状態履歴に基づく非マルコフポリシーを構築し、この病理を回避し、ネストドト、グローバル、グローバルアンティル仕様の定量的ロバストネススコアに関してそれらの最適性を証明した。
さらに、Q関数が複雑なTL仕様の安全フィルタとして機能し、単純な回避タスクや到達回避タスクを超えて事前結果を拡張できることを示す。
関連論文リスト
- Continuous-time q-learning for mean-field control with common noise, part-I: Theoretical foundations [7.003100820506273]
共振器を制御したエントロピー規則化平均場制御(MFC)におけるQ関数の連続時間対応について検討した。
我々は、ハミルトン・ヤコビ・ベルマン方程式(HJB)を導出し、制御された共有雑音がポリシーのさらなる非線形機能をもたらす。
平均場設定では、状態分布とポリシに定義された統合q関数(Iq関数)を導入し、最適方針をIq関数のargmax演算子に対する2層固定点として同定することを示した。
論文 参考訳(メタデータ) (2026-04-30T03:37:55Z) - Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。
実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文 参考訳(メタデータ) (2025-10-06T01:56:31Z) - An Analysis of Safety Guarantees in Multi-Task Bayesian Optimization [1.534667887016089]
本稿では,ベイズ最適化フレームワークへの追加情報ソースの統合について述べる。
これらの情報ソース間の相互依存性は未知の相関行列を用いてモデル化される。
最適化プロセス全体を通して制約満足度を維持するために、一様誤差境界をどのように調整する必要があるかを検討する。
論文 参考訳(メタデータ) (2025-03-11T15:45:37Z) - DO-IQS: Dynamics-Aware Offline Inverse Q-Learning for Optimal Stopping with Unknown Gain Functions [0.0]
Inverse Optimal Stopping (IOS) 問題を考えると、停止した専門家の軌道に基づいて最適な停止領域を復元することを目的としている。
停止領域の独特さは、安全上の懸念のある現実世界のアプリケーションでIOSを使用することを可能にする。
現在の最先端の逆強化学習手法は、Q関数と対応する最適ポリシーの両方を回復するが、最適な停止問題によって生じる特定の課題を考慮できない。
論文 参考訳(メタデータ) (2025-03-05T14:01:17Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Convergence of Finite Memory Q-Learning for POMDPs and Near Optimality
of Learned Policies under Filter Stability [0.0]
POMDPに対して、過去の観測と制御行動の有限履歴を用いて、制御ポリシーに対するQ学習アルゴリズムの収束を提供する。
有限履歴ウィンドウの長さに対する近似誤差に関する明示的な誤差境界を示す。
我々は、極限不動点方程式が近似的信念-MDPの最適解を与えることを示す。
論文 参考訳(メタデータ) (2021-03-22T20:14:26Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。