Fugu-MT 論文翻訳(概要): Reinforcement Learning With Reward Machines in Stochastic Games

論文の概要: Reinforcement Learning With Reward Machines in Stochastic Games

arxiv url: http://arxiv.org/abs/2305.17372v2
Date: Tue, 1 Aug 2023 17:33:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-02 17:28:58.710955
Title: Reinforcement Learning With Reward Machines in Stochastic Games
Title（参考訳）: 確率ゲームにおける報酬機械による強化学習
Authors: Jueming Hu, Jean-Raphael Gaglione, Yanze Wang, Zhe Xu, Ufuk Topcu, and Yongming Liu
Abstract要約: ゲーム用報酬機(QRM-SG)を用いたQラーニングアルゴリズムを開発した。 QRM-SGで学んだQ-函数がナッシュ平衡においてQ-函数に収束することを証明する。 3つのケーススタディは、QRM-SGが最良の応答戦略を効果的に学習できることを示している。
参考スコア（独自算出の注目度）: 27.112000559522258
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We investigate multi-agent reinforcement learning for stochastic games with complex tasks, where the reward functions are non-Markovian. We utilize reward machines to incorporate high-level knowledge of complex tasks. We develop an algorithm called Q-learning with reward machines for stochastic games (QRM-SG), to learn the best-response strategy at Nash equilibrium for each agent. In QRM-SG, we define the Q-function at a Nash equilibrium in augmented state space. The augmented state space integrates the state of the stochastic game and the state of reward machines. Each agent learns the Q-functions of all agents in the system. We prove that Q-functions learned in QRM-SG converge to the Q-functions at a Nash equilibrium if the stage game at each time step during learning has a global optimum point or a saddle point, and the agents update Q-functions based on the best-response strategy at this point. We use the Lemke-Howson method to derive the best-response strategy given current Q-functions. The three case studies show that QRM-SG can learn the best-response strategies effectively. QRM-SG learns the best-response strategies after around 7500 episodes in Case Study I, 1000 episodes in Case Study II, and 1500 episodes in Case Study III, while baseline methods such as Nash Q-learning and MADDPG fail to converge to the Nash equilibrium in all three case studies.
Abstract（参考訳）: 複雑タスクを伴う確率ゲームにおけるマルチエージェント強化学習について, 報酬関数が非マルコフ型である場合について検討する。我々は報酬機を利用して複雑なタスクの高度な知識を取り入れる。確率ゲーム(QRM-SG)の報酬機を用いたQラーニングと呼ばれるアルゴリズムを開発し,各エージェントのNash平衡における最適応答戦略を学習する。 QRM-SGでは、拡張状態空間におけるナッシュ平衡におけるQ関数を定義する。拡張状態空間は、確率ゲームの状態と報酬マシンの状態を統合する。各エージェントはシステム内のすべてのエージェントのQ関数を学習する。我々は,QRM-SGで学習したQ関数が,学習中の各段階のステージゲームが大域的最適点またはサドル点を持つ場合,ナッシュ平衡においてQ関数に収束することが証明され,エージェントは,この時点でのベストレスポンス戦略に基づいてQ関数を更新する。 lemke-howson法を用いて,現在のq関数に対する最善応答戦略を導出する。 3つのケーススタディは、QRM-SGが最良の応答戦略を効果的に学習できることを示している。 QRM-SGは,ケーススタディIで約7500回,ケーススタディIIで1000回,ケーススタディIIIで1500回,ナッシュQ-ラーニングやMADDPGといったベースライン手法がナッシュ平衡に収束しない場合に,最も優れた応答戦略を学習する。

関連論文リスト

Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。 Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。 Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文参考訳（メタデータ） (2025-05-29T11:40:34Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors [3.9801926395657325]
本稿では,Max,Nash,Maximinの戦略を用いて,様々なQベクトルを学習できるディープQ-networks(DQN)アルゴリズムを提案する。このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。
論文参考訳（メタデータ） (2024-06-12T03:30:10Z)
Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-26T18:23:21Z)
QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文参考訳（メタデータ） (2023-10-17T14:27:34Z)
Continuous-time q-learning for mean-field control problems [4.3715546759412325]
我々は最近,Jia と Zhou (2023) による Q-learning の連続時間版として作られた q-learning を,Mckean-Vlasov 制御問題に対して検討した。 2つのq-函数が全てのテストポリシーの下で積分表現によって関連していることが示される。弱いマーチンゲール条件とテストポリシーの探索法に基づいて,いくつかのモデルフリー学習アルゴリズムを考案した。
論文参考訳（メタデータ） (2023-06-28T13:43:46Z)
Asymptotic Convergence and Performance of Multi-Agent Q-Learning Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文参考訳（メタデータ） (2023-01-23T18:39:11Z)
MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2022-09-17T04:54:32Z)
Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文参考訳（メタデータ） (2022-05-29T07:39:09Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Resolving Implicit Coordination in Multi-Agent Deep Reinforcement Learning with Deep Q-Networks & Game Theory [0.0]
深層強化学習における暗黙的協調の2つの大きな課題:非定常性と状態アクション空間の指数関数的成長。ゲームタイプの知識は, Nash-Q よりも高速に収束し, 最適応答のミラー化を仮定する。デュエリングネットワークアーキテクチャに触発されて,シングルエージェントとジョイントエージェントの両方の表現を学び,要素単位でそれらをマージする。
論文参考訳（メタデータ） (2020-12-08T17:30:47Z)
Few-Shot Complex Knowledge Base Question Answering via Meta Reinforcement Learning [55.08037694027792]
複雑な質問答え(CQA)は、知識ベース(KB)上の複雑な自然言語質問に答える。従来のニューラルプログラム誘導(NPI)アプローチは、質問の種類が異なる場合、不均一なパフォーマンスを示す。本稿では,CQAにおけるプログラム誘導のためのメタ強化学習手法を提案する。
論文参考訳（メタデータ） (2020-10-29T18:34:55Z)
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2020-10-21T11:19:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。