論文の概要: Learn to Match with No Regret: Reinforcement Learning in Markov Matching
Markets
- arxiv url: http://arxiv.org/abs/2203.03684v1
- Date: Mon, 7 Mar 2022 19:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:17:28.800201
- Title: Learn to Match with No Regret: Reinforcement Learning in Markov Matching
Markets
- Title(参考訳): No Regretとのマッチングを学ぶ - マルコフマッチング市場における強化学習
- Authors: Yifei Min, Tianhao Wang, Ruitu Xu, Zhaoran Wang, Michael I. Jordan,
Zhuoran Yang
- Abstract要約: 我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。
本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。
我々は,アルゴリズムがサブ線形後悔を実現することを証明した。
- 参考スコア(独自算出の注目度): 151.03738099494765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a Markov matching market involving a planner and a set of strategic
agents on the two sides of the market. At each step, the agents are presented
with a dynamical context, where the contexts determine the utilities. The
planner controls the transition of the contexts to maximize the cumulative
social welfare, while the agents aim to find a myopic stable matching at each
step. Such a setting captures a range of applications including ridesharing
platforms. We formalize the problem by proposing a reinforcement learning
framework that integrates optimistic value iteration with maximum weight
matching. The proposed algorithm addresses the coupled challenges of sequential
exploration, matching stability, and function approximation. We prove that the
algorithm achieves sublinear regret.
- Abstract(参考訳): 我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。
各ステップでエージェントは動的コンテキストで表示され、そこでコンテキストがユーティリティを決定する。
プランナーは、累積的社会福祉を最大化するためにコンテキストの遷移を制御し、エージェントは各ステップで筋力安定マッチングを見つけることを目指している。
このような設定は、ライドシェアリングプラットフォームを含むさまざまなアプリケーションをキャプチャする。
本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは, 逐次探索, 整合安定性, 関数近似といった課題に対処する。
アルゴリズムがサブ線形後悔を実現することを証明する。
関連論文リスト
- Putting Gale & Shapley to Work: Guaranteeing Stability Through Learning [14.448192914855674]
両面のマッチング市場は、市場の片側からの参加者が好みに応じて反対側からの参加者と一致しなければならない、一連の問題を記述している。
我々は安定解の構造を利用して、安定解を見つける可能性を改善するアルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-10-06T06:47:53Z) - Independent Learning in Constrained Markov Potential Games [19.083595175045073]
制約付きマルコフゲームは、マルチエージェント強化学習問題をモデル化するための正式なフレームワークを提供する。
近似的制約付きナッシュ平衡を学習するための独立ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-27T20:57:35Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Learning Equilibria in Matching Markets from Bandit Feedback [139.29934476625488]
不確実性の下で安定した市場成果を学習するためのフレームワークとアルゴリズムを開発する。
私たちの研究は、大規模なデータ駆動の市場において、いつ、どのように安定したマッチングが生じるかを明らかにするための第一歩を踏み出します。
論文 参考訳(メタデータ) (2021-08-19T17:59:28Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。