論文の概要: Non-cooperative Multi-agent Systems with Exploring Agents
- arxiv url: http://arxiv.org/abs/2005.12360v1
- Date: Mon, 25 May 2020 19:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 06:04:49.019504
- Title: Non-cooperative Multi-agent Systems with Exploring Agents
- Title(参考訳): 探索エージェントを用いた非協調型マルチエージェントシステム
- Authors: Jalal Etesami, Christoph-Nikolas Straehle
- Abstract要約: マルコフゲームを用いたマルチエージェント動作の規範モデルを開発した。
エージェントが探索するが、最適戦略に近い」モデルに焦点を当てる。
- 参考スコア(独自算出の注目度): 10.736626320566707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent learning is a challenging problem in machine learning that has
applications in different domains such as distributed control, robotics, and
economics. We develop a prescriptive model of multi-agent behavior using Markov
games. Since in many multi-agent systems, agents do not necessary select their
optimum strategies against other agents (e.g., multi-pedestrian interaction),
we focus on models in which the agents play "exploration but near optimum
strategies". We model such policies using the Boltzmann-Gibbs distribution.
This leads to a set of coupled Bellman equations that describes the behavior of
the agents. We introduce a set of conditions under which the set of equations
admit a unique solution and propose two algorithms that provably provide the
solution in finite and infinite time horizon scenarios. We also study a
practical setting in which the interactions can be described using the
occupancy measures and propose a simplified Markov game with less complexity.
Furthermore, we establish the connection between the Markov games with
exploration strategies and the principle of maximum causal entropy for
multi-agent systems. Finally, we evaluate the performance of our algorithms via
several well-known games from the literature and some games that are designed
based on real world applications.
- Abstract(参考訳): マルチエージェント学習は、分散制御、ロボット工学、経済学など、さまざまな分野に応用されている機械学習において難しい問題である。
マルコフゲームを用いたマルチエージェント行動規範モデルを開発した。
多くのマルチエージェントシステムにおいて、エージェントは他のエージェント(例えば、マルチペデストリアン相互作用)に対して最適な戦略を選択する必要はないので、エージェントが探索を行うモデルに焦点を当てる。
このようなポリシーをボルツマン・ギブス分布を用いてモデル化する。
このことは、エージェントの振る舞いを記述する結合したベルマン方程式の集合につながる。
方程式の集合が一意解を許容する条件の集合を導入し、有限時間および無限時間地平線シナリオにおける解を確実に提供する2つのアルゴリズムを提案する。
また,本手法を用いてインタラクションを記述できる実用的な設定について検討し,複雑さの少ない簡易マルコフゲームを提案する。
さらに,探索戦略によるマルコフゲームとマルチエージェントシステムにおける最大因果エントロピーの原理の関連性を確立する。
最後に、文献からよく知られたゲームや、現実世界のアプリケーションに基づいて設計されたゲームを通じて、アルゴリズムの性能を評価する。
関連論文リスト
- Incentivize without Bonus: Provably Efficient Model-based Online Multi-agent RL for Markov Games [40.05960121330012]
マルチエージェント強化学習(マルチエージェント強化学習、MARL)は、共有された未知の環境におけるエージェントのグループ間の相互作用を含む多くのアプリケーションの中心に位置する。
モデルパラメータの実験的推定をバイアスすることで探索のインセンティブを与える,VMGと呼ばれる新しいモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-13T21:28:51Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Model Free Reinforcement Learning Algorithm for Stationary Mean field
Equilibrium for Multiple Types of Agents [43.21120427632336]
エージェントが複数の型を持つ無限大地平線上のマルチエージェント戦略相互作用を考える。
各エージェントはプライベートな状態を持ち、状態は異なるタイプのエージェントの状態の分布とエージェントのアクションに応じて進化する。
このような相互作用が、ディフェンダーや敵のサイバー攻撃をどうモデル化するかを示す。
論文 参考訳(メタデータ) (2020-12-31T00:12:46Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z) - Multi Type Mean Field Reinforcement Learning [26.110052366068533]
平均場乗算アルゴリズムを複数のタイプに拡張する。
エージェント強化学習の分野では,3つのテストベッドで実験を行った。
論文 参考訳(メタデータ) (2020-02-06T20:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。