論文の概要: Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic
Specifications
- arxiv url: http://arxiv.org/abs/2306.06808v1
- Date: Sun, 11 Jun 2023 23:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:26:10.019364
- Title: Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic
Specifications
- Title(参考訳): 信号時間論理仕様によるマルチエージェント強化学習
- Authors: Jiangwei Wang, Shuo Yang, Ziyan An, Songyang Han, Zhili Zhang, Rahul
Mangharam, Meiyi Ma, Fei Miao
- Abstract要約: 本稿では,STL(Signal Temporal Logic)誘導多エージェント強化学習アルゴリズムを提案する。
STL仕様は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計されており、STL仕様のロバスト性値は、報酬を生成するために活用される。
実験の結果,STL誘導を伴わないMARLと比較して有意に性能が向上し,マルチエージェントシステム全体の安全性が著しく向上した。
- 参考スコア(独自算出の注目度): 14.13502625455672
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: There has been growing interest in deep reinforcement learning (DRL)
algorithm design, and reward design is one key component of DRL. Among the
various techniques, formal methods integrated with DRL have garnered
considerable attention due to their expressiveness and ability to define the
requirements for the states and actions of the agent. However, the literature
of Signal Temporal Logic (STL) in guiding multi-agent reinforcement learning
(MARL) reward design remains limited. In this paper, we propose a novel
STL-guided multi-agent reinforcement learning algorithm. The STL specifications
are designed to include both task specifications according to the objective of
each agent and safety specifications, and the robustness values of the STL
specifications are leveraged to generate rewards. We validate the advantages of
our method through empirical studies. The experimental results demonstrate
significant performance improvements compared to MARL without STL guidance,
along with a remarkable increase in the overall safety rate of the multi-agent
systems.
- Abstract(参考訳): 深層強化学習(DRL)アルゴリズム設計への関心が高まっており、報酬設計はDRLの重要な要素である。
様々な技術の中で、DRLと統合された形式的手法は、その表現力とエージェントの状態と行動の要件を定義する能力により、かなりの注目を集めている。
しかし,マルチエージェント強化学習(marl)報酬設計における信号時相論理(stl)の文献は限られている。
本稿では,新しいstl誘導型マルチエージェント強化学習アルゴリズムを提案する。
STL仕様は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計されており、STL仕様のロバスト性値を利用して報酬を生成する。
本手法の利点を実証研究により検証する。
実験の結果,STL誘導を伴わないMARLと比較して有意に性能が向上し,マルチエージェントシステム全体の安全性が著しく向上した。
関連論文リスト
- Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。
知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。
本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文 参考訳(メタデータ) (2024-07-13T13:58:24Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - SAT-MARL: Specification Aware Training in Multi-Agent Reinforcement
Learning [10.82169171060299]
産業シナリオでは、システムの振る舞いは予測可能で、定義された範囲内にある必要がある。
本稿では,機能的および非機能的要求を形式的報酬に明示的に移行することを提案する。
工業用ロットサイズワン生産施設をモデル化するマルチエージェント環境であるスマートファクトリーで実験を行う。
論文 参考訳(メタデータ) (2020-12-14T21:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。