論文の概要: Safety Guarantees in Multi-agent Learning via Trapping Regions
- arxiv url: http://arxiv.org/abs/2302.13844v1
- Date: Mon, 27 Feb 2023 14:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:21:54.666169
- Title: Safety Guarantees in Multi-agent Learning via Trapping Regions
- Title(参考訳): トラッピング領域を利用したマルチエージェント学習における安全保証
- Authors: Aleksander Czechowski, Frans A. Oliehoek
- Abstract要約: マルチエージェント学習はシステムの長期動作において不確実性を引き起こす可能性がある。
動的システムの定性理論から知られるトラップ領域の概念を導入し,安全セットを作成する。
トラップ領域内に学習均衡が存在することを示す。
- 参考スコア(独自算出の注目度): 89.24858306636816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main challenges of multi-agent learning lies in establishing
convergence of the algorithms, as, in general, a collection of individual,
self-serving agents is not guaranteed to converge with their joint policy, when
learning concurrently. This is in stark contrast to most single-agent
environments, and sets a prohibitive barrier for deployment in practical
applications, as it induces uncertainty in long term behavior of the system. In
this work, we propose to apply the concept of trapping regions, known from
qualitative theory of dynamical systems, to create safety sets in the joint
strategy space for decentralized learning. Upon verification of the direction
of learning dynamics, the resulting trajectories are guaranteed not to escape
such sets, during the learning process. As a result, it is ensured, that
despite the uncertainty over convergence of the applied algorithms, learning
will never form hazardous joint strategy combinations. We introduce a binary
partitioning algorithm for verification of trapping regions in systems with
known learning dynamics, and a heuristic sampling algorithm for scenarios where
learning dynamics are not known. In addition, via a fixed point argument, we
show the existence of a learning equilibrium within a trapping region. We
demonstrate the applications to a regularized version of Dirac Generative
Adversarial Network, a four-intersection traffic control scenario run in a
state of the art open-source microscopic traffic simulator SUMO, and a
mathematical model of economic competition.
- Abstract(参考訳): マルチエージェント学習の主な課題の1つは、アルゴリズムの収束を確立することである。
これはほとんどの単一エージェント環境とは全く対照的であり、システムの長期的な振る舞いの不確実性を引き起こすため、実用的なアプリケーションにおけるデプロイの障壁となる。
本研究では、動的システムの定性理論から知られるトラップ領域の概念を適用し、分散学習のための共同戦略空間における安全セットを作成することを提案する。
学習ダイナミクスの方向を検証すれば、学習プロセス中に得られる軌道はそのような集合を逃がさないことが保証される。
その結果、適用アルゴリズムの収束に関する不確実性にもかかわらず、学習が危険な共同戦略の組み合わせを形成することはないことが保証される。
本稿では,既知の学習ダイナミクスを有するシステムにおけるトラッピング領域の検証のためのバイナリ分割アルゴリズムと,学習ダイナミクスが未知なシナリオに対するヒューリスティックサンプリングアルゴリズムを提案する。
さらに,固定点の議論を通じて,トラップ領域内に学習平衡が存在することを示す。
本稿では,dirac生成広告ネットワークのレギュライゼーション版,オープンソースの微視的交通シミュレータsumoの状況下で実行される4区間交通制御シナリオ,経済競争の数学的モデルに対する応用例を示す。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - On the dynamics of multi agent nonlinear filtering and learning [2.206852421529135]
マルチエージェントシステムは、ダイナミックスを求める分散コンセンサスを通じて、高度に複雑な学習課題を達成することを目的としている。
本稿では非線形フィルタリング/学習力学を用いたマルチエージェントネットワークシステムの挙動について検討する。
論文 参考訳(メタデータ) (2023-09-07T08:39:53Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Strategy Synthesis in Markov Decision Processes Under Limited Sampling
Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。
本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-03-22T16:58:44Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Deep Reinforcement Learning for Distributed and Uncoordinated Cognitive
Radios Resource Allocation [1.218340575383456]
本稿では,認知無線ネットワークが提示するマルチエージェント環境のための,深層強化学習に基づく資源配分手法を提案する。
提案したアルゴリズムは、非定常環境における平衡ポリシーに任意に長い時間で収束する。
標準の単エージェント深部強化学習手法を用いることで,非協調的対話型マルチラジオシナリオで使用する場合,収束が得られない可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-27T12:43:30Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。