論文の概要: Independent Learning in Stochastic Games
- arxiv url: http://arxiv.org/abs/2111.11743v1
- Date: Tue, 23 Nov 2021 09:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 17:19:12.453039
- Title: Independent Learning in Stochastic Games
- Title(参考訳): 確率ゲームにおける独立学習
- Authors: Asuman Ozdaglar and Muhammed O. Sayin and Kaiqing Zhang
- Abstract要約: 動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
- 参考スコア(独自算出の注目度): 16.505046191280634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has recently achieved tremendous successes in
many artificial intelligence applications. Many of the forefront applications
of RL involve multiple agents, e.g., playing chess and Go games, autonomous
driving, and robotics. Unfortunately, the framework upon which classical RL
builds is inappropriate for multi-agent learning, as it assumes an agent's
environment is stationary and does not take into account the adaptivity of
other agents. In this review paper, we present the model of stochastic games
for multi-agent learning in dynamic environments. We focus on the development
of simple and independent learning dynamics for stochastic games: each agent is
myopic and chooses best-response type actions to other agents' strategy without
any coordination with her opponent. There has been limited progress on
developing convergent best-response type independent learning dynamics for
stochastic games. We present our recently proposed simple and independent
learning dynamics that guarantee convergence in zero-sum stochastic games,
together with a review of other contemporaneous algorithms for dynamic
multi-agent learning in this setting. Along the way, we also reexamine some
classical results from both the game theory and RL literature, to situate both
the conceptual contributions of our independent learning dynamics, and the
mathematical novelties of our analysis. We hope this review paper serves as an
impetus for the resurgence of studying independent and natural learning
dynamics in game theory, for the more challenging settings with a dynamic
environment.
- Abstract(参考訳): 強化学習(RL)は近年、多くの人工知能アプリケーションで大きな成功を収めている。
RLの先駆的応用の多くは、チェスや囲碁、自律運転、ロボット工学など、複数のエージェントを含む。
残念ながら、古典的なRLが構築するフレームワークは、エージェントの環境が静止しており、他のエージェントの適応性を考慮していないと仮定するため、マルチエージェント学習には不適切である。
本稿では,動的環境におけるマルチエージェント学習のための確率ゲームモデルを提案する。
我々は,確率ゲームのための単純で独立した学習力学の開発に焦点をあてる: 各エージェントは筋電図であり,相手と協調することなく,相手エージェントの戦略に対して最も応答性の高い行動を選択する。
確率ゲームのための収束型ベストレスポンス型独立学習ダイナミクスの開発は限定的である。
本稿では,ゼロサム確率ゲームにおける収束を保証する単純かつ独立な学習力学と,この環境下での動的マルチエージェント学習のための他の同時学習アルゴリズムのレビューを紹介する。
その過程で、ゲーム理論とRL文学の両方の古典的な結果を再検討し、我々の独立学習力学の概念的貢献と、我々の分析の数学的斬新さを両立させる。
このレビュー論文は、ゲーム理論における独立学習と自然学習のダイナミクスの研究の復活の鍵となり、動的環境のより困難な設定に役立てることを願っている。
関連論文リスト
- Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Dyna-T: Dyna-Q and Upper Confidence Bounds Applied to Trees [0.9137554315375919]
本稿ではDyna-Tという新しいアルゴリズムについて予備検討する。
強化学習(RL)では、計画エージェントは環境をモデルとして表現する。
より良いモデルを学ぶために、あるいは価値関数とポリシーを直接改善するために、経験を使うことができる。
論文 参考訳(メタデータ) (2022-01-12T15:06:30Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z) - The Evolutionary Dynamics of Independent Learning Agents in Population
Games [21.68881173635777]
本稿では,集団ゲームにおける独立学習エージェントのプロセスとダイナミクスの形式的関係について述べる。
マスター方程式アプローチを用いて、人口動態を特徴付けるための新しい統一的な枠組みを提供する。
論文 参考訳(メタデータ) (2020-06-29T14:22:23Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。