論文の概要: Optimal Control of Logically Constrained Partially Observable and Multi-Agent Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2305.14736v3
- Date: Wed, 19 Jun 2024 21:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 09:00:25.037714
- Title: Optimal Control of Logically Constrained Partially Observable and Multi-Agent Markov Decision Processes
- Title(参考訳): 論理的制約付き部分可観測・マルチエージェントマルコフ決定過程の最適制御
- Authors: Krishna C. Kalagarla, Dhruva Kartik, Dongming Shen, Rahul Jain, Ashutosh Nayyar, Pierluigi Nuzzo,
- Abstract要約: まず、部分的に観測可能なマルコフ決定過程に対する最適制御理論を導入する。
累積報酬を最大化するポリシを合成するための構造化手法を提供する。
次に、論理的に制約されたマルチエージェント設定のための最適制御フレームワークを設計するために、このアプローチを構築します。
- 参考スコア(独自算出の注目度): 5.471640959988549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems often have logical constraints arising, for example, from safety, operational, or regulatory requirements. Such constraints can be expressed using temporal logic specifications. The system state is often partially observable. Moreover, it could encompass a team of multiple agents with a common objective but disparate information structures and constraints. In this paper, we first introduce an optimal control theory for partially observable Markov decision processes (POMDPs) with finite linear temporal logic constraints. We provide a structured methodology for synthesizing policies that maximize a cumulative reward while ensuring that the probability of satisfying a temporal logic constraint is sufficiently high. Our approach comes with guarantees on approximate reward optimality and constraint satisfaction. We then build on this approach to design an optimal control framework for logically constrained multi-agent settings with information asymmetry. We illustrate the effectiveness of our approach by implementing it on several case studies.
- Abstract(参考訳): 自律システムには、安全、運用、規制要件といった論理的な制約があることが多い。
このような制約は時間論理の仕様を使って表現できる。
システム状態は部分的に観察可能であることが多い。
さらに、共通の目的を持つ複数のエージェントからなるチームを含むことができるが、情報構造や制約は異なる。
本稿ではまず,有限線形時間論理制約を持つ部分観測可能マルコフ決定過程(POMDP)に対する最適制御理論を提案する。
時間論理制約を満たす確率が十分に高いことを保証しつつ、累積報酬を最大化するポリシーを合成するための構造化手法を提供する。
私たちのアプローチは、近似的な報酬の最適性と制約満足度に関する保証を伴います。
そこで我々は,情報非対称性を持つ論理的制約付きマルチエージェント設定のための最適制御フレームワークを設計するために,このアプローチを構築した。
いくつかのケーススタディに実装することで,本手法の有効性について解説する。
関連論文リスト
- Reinforcement Learning Under Probabilistic Spatio-Temporal Constraints
with Time Windows [0.0]
本稿では,時間窓との複雑な時間的制約下での強化学習(RL)のための自動理論的アプローチを提案する。
制約満足度の結果の確率に関する理論的保証を提供する。
また,ロボットが環境を探索して高次領域を探索するシナリオにおいて,数値的な結果も提供する。
論文 参考訳(メタデータ) (2023-07-29T06:47:14Z) - Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal
Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。
まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。
我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文 参考訳(メタデータ) (2023-01-04T10:40:30Z) - On the Complexity of Rational Verification [5.230352342979224]
合理的検証とは、同時マルチエージェントシステムの時間論理特性が保持する問題を指す。
合理的な検証の複雑さは仕様によって大幅に低減できることを示す。
平均支払ユーティリティ関数によって与えられるプレイヤーの目標を考慮した場合、合理的な検証のための改善された結果を提供する。
論文 参考訳(メタデータ) (2022-07-06T12:56:22Z) - Logical blocks for fault-tolerant topological quantum computation [55.41644538483948]
本稿では,プラットフォームに依存しない論理ゲート定義の必要性から,普遍的なフォールトトレラント論理の枠組みを提案する。
資源オーバーヘッドを改善するユニバーサル論理の新しいスキームについて検討する。
境界のない計算に好適な論理誤差率を動機として,新しい計算手法を提案する。
論文 参考訳(メタデータ) (2021-12-22T19:00:03Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Policy Analysis using Synthetic Controls in Continuous-Time [101.35070661471124]
因果推論における手法開発において, 合成制御を用いた因果推定は最も成功した手法の1つである。
本稿では,制御された微分方程式の定式化を明示的に用い,潜在反事実経路をモデル化する連続時間代替法を提案する。
論文 参考訳(メタデータ) (2021-02-02T16:07:39Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Verifiable Planning in Expected Reward Multichain MDPs [20.456052208569115]
エージェントの意思決定方針を導出する定常計画問題について検討する。
提案プログラムに対する最適解が、厳密な行動保証を伴う定常的な政策をもたらすことを証明した。
論文 参考訳(メタデータ) (2020-12-03T18:54:24Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。