論文の概要: Reinforcement Learning with $ω$-Regular Objectives and Constraints
- arxiv url: http://arxiv.org/abs/2511.19849v1
- Date: Tue, 25 Nov 2025 02:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.237776
- Title: Reinforcement Learning with $ω$-Regular Objectives and Constraints
- Title(参考訳): ω$-regular ObjectivesとConstraintsを用いた強化学習
- Authors: Dominik Wagner, Leon Witzman, Luke Ong,
- Abstract要約: 強化学習(RL)は通常、時間的、条件的、安全クリティカルな目標を表現する能力に制限のあるスカラー報酬に依存している。
我々は、$$-regularの目的と明示的な制約を組み合わせることで、両方の制限を同時に解決する。
線形計画法に基づくモデルベースRLアルゴリズムを開発し、その極限において、$$-regularの目的を満たす確率を最大化するポリシーを生成する。
- 参考スコア(独自算出の注目度): 8.056263159622386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) commonly relies on scalar rewards with limited ability to express temporal, conditional, or safety-critical goals, and can lead to reward hacking. Temporal logic expressible via the more general class of $ω$-regular objectives addresses this by precisely specifying rich behavioural properties. Even still, measuring performance by a single scalar (be it reward or satisfaction probability) masks safety-performance trade-offs that arise in settings with a tolerable level of risk. We address both limitations simultaneously by combining $ω$-regular objectives with explicit constraints, allowing safety requirements and optimisation targets to be treated separately. We develop a model-based RL algorithm based on linear programming, which in the limit produces a policy maximising the probability of satisfying an $ω$-regular objective while also adhering to $ω$-regular constraints within specified thresholds. Furthermore, we establish a translation to constrained limit-average problems with optimality-preserving guarantees.
- Abstract(参考訳): 強化学習(RL)は通常、時間的、条件的、安全クリティカルな目標を表現する能力に制限のあるスカラー報酬に依存しており、報酬のハッキングにつながる可能性がある。
より一般的な$ω$-regular Objectivesクラスを通して表現可能な時間論理は、リッチな振る舞い特性を正確に指定することでこの問題に対処する。
それでも、単一のスカラー(報酬や満足度確率など)によるパフォーマンスの測定は、許容可能なレベルのリスクを持つ設定で発生する安全性能トレードオフを隠蔽する。
我々は、$ω$-regularの目的を明示的な制約と組み合わせ、安全要件と最適化目標を別々に扱えるようにすることで、両方の制約を同時に解決する。
線形プログラミングに基づくモデルベースRLアルゴリズムを開発した。このアルゴリズムは,所定のしきい値内において,$ω$-regularの制約に固執しつつ,$ω$-regularの目的を満たす確率を最大化するポリシを生成する。
さらに、最適性保存保証を伴う制約付き制限平均値問題への変換を確立する。
関連論文リスト
- Exchange Policy Optimization Algorithm for Semi-Infinite Safe Reinforcement Learning [26.75757359001632]
本稿では,最適政策性能と決定論的境界安全性を実現するアルゴリズムフレームワークである交換ポリシ最適化(EPO)を提案する。
EPOは、有限制約集合で安全なRLサブプロブレムを反復的に解き、制約拡張と削除を通じて活性集合を適応的に調整することで機能する。
我々の理論的分析は、軽微な仮定の下で、EPOによって訓練された戦略が、所定の限界内に厳密に残されている大域的制約違反を伴う最適解に匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2025-11-06T07:51:58Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - An Optimistic Algorithm for online CMDPS with Anytime Adversarial Constraints [7.275101606364466]
オンライン安全強化学習(RL)は、自律運転、ロボティクス、サイバーセキュリティなど、動的環境において重要な役割を果たす。
マルコフ決定プロセス(CMDP)をモデルとした安全制約を満たしつつ報酬を最大化する最適政策を学習することを目的とする。
既存の手法は制約の下でサブリニアな後悔を実現するが、制約が未知、時間変化、潜在的に敵意的に設計された場合、しばしば敵の設定で失敗する。
最適ミラーDescent Primal-Dual (OMDPD) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-28T00:16:34Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。