論文の概要: Multi-Agent Reinforcement Learning with Temporal Logic Specifications
- arxiv url: http://arxiv.org/abs/2102.00582v1
- Date: Mon, 1 Feb 2021 01:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:02:48.833149
- Title: Multi-Agent Reinforcement Learning with Temporal Logic Specifications
- Title(参考訳): 時間論理仕様を用いたマルチエージェント強化学習
- Authors: Lewis Hammond and Alessandro Abate and Julian Gutierrez and Michael
Wooldridge
- Abstract要約: 本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
- 参考スコア(独自算出の注目度): 65.79056365594654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of learning to satisfy temporal logic
specifications with a group of agents in an unknown environment, which may
exhibit probabilistic behaviour. From a learning perspective these
specifications provide a rich formal language with which to capture tasks or
objectives, while from a logic and automated verification perspective the
introduction of learning capabilities allows for practical applications in
large, stochastic, unknown environments. The existing work in this area is,
however, limited. Of the frameworks that consider full linear temporal logic or
have correctness guarantees, all methods thus far consider only the case of a
single temporal logic specification and a single agent. In order to overcome
this limitation, we develop the first multi-agent reinforcement learning
technique for temporal logic specifications, which is also novel in its ability
to handle multiple specifications. We provide correctness and convergence
guarantees for our main algorithm - ALMANAC (Automaton/Logic Multi-Agent
Natural Actor-Critic) - even when using function approximation. Alongside our
theoretical results, we further demonstrate the applicability of our technique
via a set of preliminary experiments.
- Abstract(参考訳): 本稿では,未知の環境におけるエージェント群による時間論理仕様を満たす学習の問題について検討し,確率的行動を示す可能性がある。
学習の観点からは、これらの仕様はタスクや目的をキャプチャするリッチな形式言語を提供する一方で、ロジックや自動検証の観点からは、学習機能の導入によって、大規模で統計的で未知の環境での実用的な応用が可能になる。
しかし、この領域の既存の仕事は限られています。
完全な線形時間論理や正当性を保証するフレームワークのうち、これまでのすべてのメソッドでは、単一の時間論理仕様と単一のエージェントのみを考慮する。
この制限を克服するために、時間論理仕様のための最初のマルチエージェント強化学習技術を開発しました。
関数近似を用いても,主アルゴリズムであるALMANAC(Automaton/Logic Multi-Agent Natural Actor-Critic)の正確性と収束性を保証する。
理論的結果とともに,予備実験のセットを通じて,本手法の適用性をさらに実証する。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Optimal Control of Logically Constrained Partially Observable and Multi-Agent Markov Decision Processes [5.471640959988549]
まず、部分的に観測可能なマルコフ決定過程に対する最適制御理論を導入する。
累積報酬を最大化するポリシを合成するための構造化手法を提供する。
次に、論理的に制約されたマルチエージェント設定のための最適制御フレームワークを設計するために、このアプローチを構築します。
論文 参考訳(メタデータ) (2023-05-24T05:15:36Z) - Interpretable Anomaly Detection via Discrete Optimization [1.7150329136228712]
本稿では,シーケンシャルデータから本質的に解釈可能な異常検出を学習するためのフレームワークを提案する。
この問題は計算的に困難であることを示し,制約最適化に基づく2つの学習アルゴリズムを開発した。
プロトタイプ実装を用いて,提案手法は精度とF1スコアの点で有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning [13.049516752695613]
本稿では,エージェントがその環境におけるすべてのハイレベルな目標を達成するのに十分なスキルプリミティブのセットを学習するフレームワークを提案する。
エージェントは論理的にも時間的にも柔軟に構成でき、任意の正規言語で時間論理の仕様を確実に達成することができる。
これによりエージェントは、複雑な時間論理タスクの仕様から、ほぼ最適な振る舞いをゼロショットにマッピングできる。
論文 参考訳(メタデータ) (2022-05-25T07:05:24Z) - Inverse Reinforcement Learning of Autonomous Behaviors Encoded as
Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。
本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。
高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文 参考訳(メタデータ) (2021-03-10T06:42:10Z) - A General Machine Learning Framework for Survival Analysis [0.8029049649310213]
生存分析のための機械学習手法の多くは、正しい検閲されたデータと比例的ハザード仮定による標準設定のみを考慮する。
我々は,データ拡張戦略を用いて,複雑な生存タスクを標準的なポアソン回帰タスクに還元する,時間対イベント分析のための非常に一般的な機械学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-27T20:57:18Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。