論文の概要: SAT-MARL: Specification Aware Training in Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2012.07949v1
- Date: Mon, 14 Dec 2020 21:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:15:06.527569
- Title: SAT-MARL: Specification Aware Training in Multi-Agent Reinforcement
Learning
- Title(参考訳): SAT-MARL:マルチエージェント強化学習における仕様アウェアトレーニング
- Authors: Fabian Ritz, Thomy Phan, Robert M\"uller, Thomas Gabor, Andreas
Sedlmeier, Marc Zeller, Jan Wieghardt, Reiner Schmid, Horst Sauer, Cornel
Klein, Claudia Linnhoff-Popien
- Abstract要約: 産業シナリオでは、システムの振る舞いは予測可能で、定義された範囲内にある必要がある。
本稿では,機能的および非機能的要求を形式的報酬に明示的に移行することを提案する。
工業用ロットサイズワン生産施設をモデル化するマルチエージェント環境であるスマートファクトリーで実験を行う。
- 参考スコア(独自算出の注目度): 10.82169171060299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A characteristic of reinforcement learning is the ability to develop
unforeseen strategies when solving problems. While such strategies sometimes
yield superior performance, they may also result in undesired or even dangerous
behavior. In industrial scenarios, a system's behavior also needs to be
predictable and lie within defined ranges. To enable the agents to learn (how)
to align with a given specification, this paper proposes to explicitly transfer
functional and non-functional requirements into shaped rewards. Experiments are
carried out on the smart factory, a multi-agent environment modeling an
industrial lot-size-one production facility, with up to eight agents and
different multi-agent reinforcement learning algorithms. Results indicate that
compliance with functional and non-functional constraints can be achieved by
the proposed approach.
- Abstract(参考訳): 強化学習の特徴は、問題解決時に予期せぬ戦略を開発する能力である。
このような戦略は時に優れたパフォーマンスをもたらすが、望ましくない行動や危険な行動を引き起こすこともある。
産業シナリオでは、システムの振る舞いも予測可能で、定義された範囲内にある必要がある。
エージェントが与えられた仕様に整合する(どのように)ことを学べるように,機能的および非機能的要求を形式的な報酬に明示的に伝達することを提案する。
smart factoryは、最大8つのエージェントと異なるマルチエージェント強化学習アルゴリズムを備えた、産業用ロットサイズの生産施設をモデル化するマルチエージェント環境である。
その結果,提案手法により,機能的制約と非機能的制約の遵守が可能となった。
関連論文リスト
- Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic
Specifications [22.407388715224283]
STL誘導型マルチエージェント強化学習フレームワークを提案する。
STL要求は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計され、STL仕様の値は、報酬を生成するために活用される。
論文 参考訳(メタデータ) (2023-06-11T23:53:29Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Latent Policies for Adversarial Imitation Learning [21.105328282702885]
本稿では,専門家によるデモンストレーションからロボットの移動と操作の学習について考察する。
GAIL(Generative Adversarial mimicion Learning)は、エージェント遷移と専門家を区別する判別器を訓練し、次に、識別器出力によって定義された報酬を使用してエージェントのポリシー生成を最適化する。
この研究の重要な洞察は、適切な潜在タスク空間で模倣学習を行うことで、高次元問題に挑戦してもトレーニングプロセスを安定させるということである。
論文 参考訳(メタデータ) (2022-06-22T18:06:26Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Individual specialization in multi-task environments with multiagent
reinforcement learners [0.0]
汎用知的エージェント構築の第一歩として,マルチエージェント強化学習(MARL)への関心が高まっている。
以前の結果は、調整、効率/公平性、共有プールリソース共有の条件の増大を示唆している。
マルチタスク環境において、複数の報奨タスクを実行できるため、エージェントは必ずしも全てのタスクでうまく機能する必要はないが、特定の条件下では特殊化される可能性がある。
論文 参考訳(メタデータ) (2019-12-29T15:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。