論文の概要: Multi-Agent Reinforcement Learning with Temporal Logic Specifications
- arxiv url: http://arxiv.org/abs/2102.00582v1
- Date: Mon, 1 Feb 2021 01:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:02:48.833149
- Title: Multi-Agent Reinforcement Learning with Temporal Logic Specifications
- Title(参考訳): 時間論理仕様を用いたマルチエージェント強化学習
- Authors: Lewis Hammond and Alessandro Abate and Julian Gutierrez and Michael
Wooldridge
- Abstract要約: 本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
- 参考スコア(独自算出の注目度): 65.79056365594654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of learning to satisfy temporal logic
specifications with a group of agents in an unknown environment, which may
exhibit probabilistic behaviour. From a learning perspective these
specifications provide a rich formal language with which to capture tasks or
objectives, while from a logic and automated verification perspective the
introduction of learning capabilities allows for practical applications in
large, stochastic, unknown environments. The existing work in this area is,
however, limited. Of the frameworks that consider full linear temporal logic or
have correctness guarantees, all methods thus far consider only the case of a
single temporal logic specification and a single agent. In order to overcome
this limitation, we develop the first multi-agent reinforcement learning
technique for temporal logic specifications, which is also novel in its ability
to handle multiple specifications. We provide correctness and convergence
guarantees for our main algorithm - ALMANAC (Automaton/Logic Multi-Agent
Natural Actor-Critic) - even when using function approximation. Alongside our
theoretical results, we further demonstrate the applicability of our technique
via a set of preliminary experiments.
- Abstract(参考訳): 本稿では,未知の環境におけるエージェント群による時間論理仕様を満たす学習の問題について検討し,確率的行動を示す可能性がある。
学習の観点からは、これらの仕様はタスクや目的をキャプチャするリッチな形式言語を提供する一方で、ロジックや自動検証の観点からは、学習機能の導入によって、大規模で統計的で未知の環境での実用的な応用が可能になる。
しかし、この領域の既存の仕事は限られています。
完全な線形時間論理や正当性を保証するフレームワークのうち、これまでのすべてのメソッドでは、単一の時間論理仕様と単一のエージェントのみを考慮する。
この制限を克服するために、時間論理仕様のための最初のマルチエージェント強化学習技術を開発しました。
関数近似を用いても,主アルゴリズムであるALMANAC(Automaton/Logic Multi-Agent Natural Actor-Critic)の正確性と収束性を保証する。
理論的結果とともに,予備実験のセットを通じて,本手法の適用性をさらに実証する。
関連論文リスト
- Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Optimal Control of Logically Constrained Partially Observable and
Multi-Agent Markov Decision Processes [8.920568283056598]
まず、部分的に観測可能なマルコフ決定過程に対する最適制御理論を導入する。
累積報酬を最大化するポリシを合成するための構造化手法を提供する。
次に、論理的に制約されたマルチエージェント設定のための最適制御フレームワークを設計するために、このアプローチを構築します。
論文 参考訳(メタデータ) (2023-05-24T05:15:36Z) - Interpretable Anomaly Detection via Discrete Optimization [1.7150329136228712]
本稿では,シーケンシャルデータから本質的に解釈可能な異常検出を学習するためのフレームワークを提案する。
この問題は計算的に困難であることを示し,制約最適化に基づく2つの学習アルゴリズムを開発した。
プロトタイプ実装を用いて,提案手法は精度とF1スコアの点で有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Inverse Reinforcement Learning of Autonomous Behaviors Encoded as
Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。
本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。
高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文 参考訳(メタデータ) (2021-03-10T06:42:10Z) - A General Machine Learning Framework for Survival Analysis [0.8029049649310213]
生存分析のための機械学習手法の多くは、正しい検閲されたデータと比例的ハザード仮定による標準設定のみを考慮する。
我々は,データ拡張戦略を用いて,複雑な生存タスクを標準的なポアソン回帰タスクに還元する,時間対イベント分析のための非常に一般的な機械学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-27T20:57:18Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。