論文の概要: HypRL: Reinforcement Learning of Control Policies for Hyperproperties
- arxiv url: http://arxiv.org/abs/2504.04675v1
- Date: Mon, 07 Apr 2025 01:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:03.933481
- Title: HypRL: Reinforcement Learning of Control Policies for Hyperproperties
- Title(参考訳): HypRL:ハイパープロパタイトのための制御ポリシーの強化学習
- Authors: Tzu-Han Hsu, Arshia Rafieioskouei, Borzoo Bonakdarpour,
- Abstract要約: 超越性によって要求される複雑なタスクに対する学習制御ポリシの問題について検討する。
本稿では,(1)安全保全型マルチエージェントパス計画,(2)資源配分の公平性,(3)応答後問題(PCP)に関するケーススタディを提案する。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License:
- Abstract: We study the problem of learning control policies for complex tasks whose requirements are given by a hyperproperty. The use of hyperproperties is motivated by their significant power to formally specify requirements of multi-agent systems as well as those that need expressiveness in terms of multiple execution traces (e.g., privacy and fairness). Given a Markov decision process M with unknown transitions (representing the environment) and a HyperLTL formula $\varphi$, our approach first employs Skolemization to handle quantifier alternations in $\varphi$. We introduce quantitative robustness functions for HyperLTL to define rewards of finite traces of M with respect to $\varphi$. Finally, we utilize a suitable reinforcement learning algorithm to learn (1) a policy per trace quantifier in $\varphi$, and (2) the probability distribution of transitions of M that together maximize the expected reward and, hence, probability of satisfaction of $\varphi$ in M. We present a set of case studies on (1) safety-preserving multi-agent path planning, (2) fairness in resource allocation, and (3) the post-correspondence problem (PCP).
- Abstract(参考訳): 超越性によって要求される複雑なタスクに対する学習制御ポリシの問題について検討する。
ハイパープロパティの使用は、複数の実行トレース(例えば、プライバシと公正性)において表現力を必要とするものだけでなく、マルチエージェントシステムの要件を正式に指定する大きな力によって動機付けられている。
マルコフ決定過程 M に未知の遷移(環境を表現する)とハイパーLTL式 $\varphi$ が与えられたとき、我々の手法はまずSkolemization を用いて$\varphi$ の量化子交代を扱う。
我々は、M の有限トレースの報酬を $\varphi$ に対して定義するために、HyperLTL の定量的ロバスト性関数を導入する。
最後に,(1)痕跡量化器あたりのポリシーを$\varphi$で学習するために適切な強化学習アルゴリズムを用い,(2)期待される報酬を最大化するMの遷移の確率分布を推定し,その結果,Mにおける$\varphi$の満足度確率を推定する。
関連論文リスト
- A View of the Certainty-Equivalence Method for PAC RL as an Application of the Trajectory Tree Method [5.238591085233903]
本稿では,CEMが実際にTTMの応用と見なされるという驚くべき発見に起因した理論的研究を提案する。
我々は,非定常MPPと定常MPPの双方に対して,CEMの試料複雑度上限を(3)改良した。
また, 有限ホライズン MDP に対する標本複雑性の低い値を示し, 非定常 MDP に対する上界の最小値最適性を確立する。
論文 参考訳(メタデータ) (2025-01-05T20:37:34Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - Scaling Distributed Multi-task Reinforcement Learning with Experience
Sharing [38.883540444516605]
DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。
分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。
我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
論文 参考訳(メタデータ) (2023-07-11T22:58:53Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。