論文の概要: Reinforcement Learning With Reward Machines in Stochastic Games
- arxiv url: http://arxiv.org/abs/2305.17372v2
- Date: Tue, 1 Aug 2023 17:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:28:58.710955
- Title: Reinforcement Learning With Reward Machines in Stochastic Games
- Title(参考訳): 確率ゲームにおける報酬機械による強化学習
- Authors: Jueming Hu, Jean-Raphael Gaglione, Yanze Wang, Zhe Xu, Ufuk Topcu, and
Yongming Liu
- Abstract要約: ゲーム用報酬機(QRM-SG)を用いたQラーニングアルゴリズムを開発した。
QRM-SGで学んだQ-函数がナッシュ平衡においてQ-函数に収束することを証明する。
3つのケーススタディは、QRM-SGが最良の応答戦略を効果的に学習できることを示している。
- 参考スコア(独自算出の注目度): 27.112000559522258
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate multi-agent reinforcement learning for stochastic games with
complex tasks, where the reward functions are non-Markovian. We utilize reward
machines to incorporate high-level knowledge of complex tasks. We develop an
algorithm called Q-learning with reward machines for stochastic games (QRM-SG),
to learn the best-response strategy at Nash equilibrium for each agent. In
QRM-SG, we define the Q-function at a Nash equilibrium in augmented state
space. The augmented state space integrates the state of the stochastic game
and the state of reward machines. Each agent learns the Q-functions of all
agents in the system. We prove that Q-functions learned in QRM-SG converge to
the Q-functions at a Nash equilibrium if the stage game at each time step
during learning has a global optimum point or a saddle point, and the agents
update Q-functions based on the best-response strategy at this point. We use
the Lemke-Howson method to derive the best-response strategy given current
Q-functions. The three case studies show that QRM-SG can learn the
best-response strategies effectively. QRM-SG learns the best-response
strategies after around 7500 episodes in Case Study I, 1000 episodes in Case
Study II, and 1500 episodes in Case Study III, while baseline methods such as
Nash Q-learning and MADDPG fail to converge to the Nash equilibrium in all
three case studies.
- Abstract(参考訳): 複雑タスクを伴う確率ゲームにおけるマルチエージェント強化学習について, 報酬関数が非マルコフ型である場合について検討する。
我々は報酬機を利用して複雑なタスクの高度な知識を取り入れる。
確率ゲーム(QRM-SG)の報酬機を用いたQラーニングと呼ばれるアルゴリズムを開発し,各エージェントのNash平衡における最適応答戦略を学習する。
QRM-SGでは、拡張状態空間におけるナッシュ平衡におけるQ関数を定義する。
拡張状態空間は、確率ゲームの状態と報酬マシンの状態を統合する。
各エージェントはシステム内のすべてのエージェントのQ関数を学習する。
我々は,QRM-SGで学習したQ関数が,学習中の各段階のステージゲームが大域的最適点またはサドル点を持つ場合,ナッシュ平衡においてQ関数に収束することが証明され,エージェントは,この時点でのベストレスポンス戦略に基づいてQ関数を更新する。
lemke-howson法を用いて,現在のq関数に対する最善応答戦略を導出する。
3つのケーススタディは、QRM-SGが最良の応答戦略を効果的に学習できることを示している。
QRM-SGは,ケーススタディIで約7500回,ケーススタディIIで1000回,ケーススタディIIIで1500回,ナッシュQ-ラーニングやMADDPGといったベースライン手法がナッシュ平衡に収束しない場合に,最も優れた応答戦略を学習する。
関連論文リスト
- Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors [3.9801926395657325]
本稿では,Max,Nash,Maximinの戦略を用いて,様々なQベクトルを学習できるディープQ-networks(DQN)アルゴリズムを提案する。
このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。
論文 参考訳(メタデータ) (2024-06-12T03:30:10Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - Continuous-time q-learning for mean-field control problems [4.3715546759412325]
我々は最近,Jia と Zhou (2023) による Q-learning の連続時間版として作られた q-learning を,Mckean-Vlasov 制御問題に対して検討した。
2つのq-函数が全てのテストポリシーの下で積分表現によって関連していることが示される。
弱いマーチンゲール条件とテストポリシーの探索法に基づいて,いくつかのモデルフリー学習アルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-06-28T13:43:46Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Few-Shot Complex Knowledge Base Question Answering via Meta
Reinforcement Learning [55.08037694027792]
複雑な質問答え(CQA)は、知識ベース(KB)上の複雑な自然言語質問に答える。
従来のニューラルプログラム誘導(NPI)アプローチは、質問の種類が異なる場合、不均一なパフォーマンスを示す。
本稿では,CQAにおけるプログラム誘導のためのメタ強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-29T18:34:55Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。