論文の概要: Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic
Specifications
- arxiv url: http://arxiv.org/abs/2306.06808v2
- Date: Sun, 22 Oct 2023 20:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:41:07.934803
- Title: Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic
Specifications
- Title(参考訳): 信号時間論理仕様によるマルチエージェント強化学習
- Authors: Jiangwei Wang, Shuo Yang, Ziyan An, Songyang Han, Zhili Zhang, Rahul
Mangharam, Meiyi Ma, Fei Miao
- Abstract要約: STL誘導型マルチエージェント強化学習フレームワークを提案する。
STL要求は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計され、STL仕様の値は、報酬を生成するために活用される。
- 参考スコア(独自算出の注目度): 22.407388715224283
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reward design is a key component of deep reinforcement learning, yet some
tasks and designer's objectives may be unnatural to define as a scalar cost
function. Among the various techniques, formal methods integrated with DRL have
garnered considerable attention due to their expressiveness and flexibility to
define the reward and requirements for different states and actions of the
agent. However, how to leverage Signal Temporal Logic (STL) to guide
multi-agent reinforcement learning reward design remains unexplored. Complex
interactions, heterogeneous goals and critical safety requirements in
multi-agent systems make this problem even more challenging. In this paper, we
propose a novel STL-guided multi-agent reinforcement learning framework. The
STL requirements are designed to include both task specifications according to
the objective of each agent and safety specifications, and the robustness
values of the STL specifications are leveraged to generate rewards. We validate
the advantages of our method through empirical studies. The experimental
results demonstrate significant reward performance improvements compared to
MARL without STL guidance, along with a remarkable increase in the overall
safety rate of the multi-agent systems.
- Abstract(参考訳): リワード設計は深層強化学習の重要な要素であるが、いくつかのタスクやデザイナの目的はスカラーコスト関数として定義することが不自然な場合がある。
様々な技術の中で、DRLと統合された形式的手法は、エージェントの異なる状態や行動に対する報酬と要求を定義するための表現性と柔軟性のために、かなりの注目を集めている。
しかし、STL(Signal Temporal Logic)を用いてマルチエージェント強化学習報酬設計を導出する方法は未定である。
複雑な相互作用、異種目標、マルチエージェントシステムにおけるクリティカルセーフティ要件により、この問題はさらに困難になる。
本稿では,新しいstl誘導型マルチエージェント強化学習フレームワークを提案する。
STL要求は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計されており、STL仕様の堅牢性値は、報酬を生成するために利用される。
本手法の利点を実証研究により検証する。
実験の結果,STL誘導を伴わないMARLと比較して,報奨性能が有意に向上し,マルチエージェントシステム全体の安全性が著しく向上した。
関連論文リスト
- Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。
知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。
本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文 参考訳(メタデータ) (2024-07-13T13:58:24Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - SAT-MARL: Specification Aware Training in Multi-Agent Reinforcement
Learning [10.82169171060299]
産業シナリオでは、システムの振る舞いは予測可能で、定義された範囲内にある必要がある。
本稿では,機能的および非機能的要求を形式的報酬に明示的に移行することを提案する。
工業用ロットサイズワン生産施設をモデル化するマルチエージェント環境であるスマートファクトリーで実験を行う。
論文 参考訳(メタデータ) (2020-12-14T21:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。