論文の概要: Multi-agent Reinforcement Learning for Decentralized Stable Matching
- arxiv url: http://arxiv.org/abs/2005.01117v3
- Date: Sat, 4 Dec 2021 00:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:24:19.460155
- Title: Multi-agent Reinforcement Learning for Decentralized Stable Matching
- Title(参考訳): 分散安定マッチングのためのマルチエージェント強化学習
- Authors: Kshitija Taywade, Judy Goldsmith, Brent Harrison
- Abstract要約: 現実の世界では、仕事、パートナー、ルームメイトなどを見つけるなど、人や個人は通常、独立して、自律的にマッチを見つけます。
このマッチングの検索は、環境に関する初期知識なしで始まる可能性がある。
本稿では,空間的に定式化された分散二面マッチング市場にマルチエージェント強化学習パラダイムを適用することを提案する。
- 参考スコア(独自算出の注目度): 13.563394785448192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the real world, people/entities usually find matches independently and
autonomously, such as finding jobs, partners, roommates, etc. It is possible
that this search for matches starts with no initial knowledge of the
environment. We propose the use of a multi-agent reinforcement learning (MARL)
paradigm for a spatially formulated decentralized two-sided matching market
with independent and autonomous agents. Having autonomous agents acting
independently makes our environment very dynamic and uncertain. Moreover,
agents lack the knowledge of preferences of other agents and have to explore
the environment and interact with other agents to discover their own
preferences through noisy rewards. We think such a setting better approximates
the real world and we study the usefulness of our MARL approach for it. Along
with conventional stable matching case where agents have strictly ordered
preferences, we check the applicability of our approach for stable matching
with incomplete lists and ties. We investigate our results for stability, level
of instability (for unstable results), and fairness. Our MARL approach mostly
yields stable and fair outcomes.
- Abstract(参考訳): 現実の世界では、人/人は通常、仕事、パートナー、ルームメイトなど、独立して自律的にマッチを見つけます。
このマッチングの検索は、環境に関する初期知識なしで始まる可能性がある。
本稿では,マルチエージェント強化学習(marl)パラダイムを,独立エージェントと自律エージェントとの空間的形成型分散2面マッチング市場に適用することを提案する。
自律的なエージェントが独立して行動することで、環境は非常にダイナミックで不確実になります。
さらに、エージェントは他のエージェントの好みの知識を欠き、環境を探索し、他のエージェントと対話し、騒々しい報酬を通じて自分の好みを発見する必要がある。
このような設定は現実世界をよりよく近似し、MARLアプローチの有用性について検討する。
エージェントが厳格に順序付けされた従来の安定マッチングケースと並行して,不完全リストと結びつきの安定マッチングに対する我々のアプローチの適用性を確認する。
安定度,不安定度(不安定度),公平性について検討した。
我々のMARLアプローチは、主に安定かつ公正な結果をもたらす。
関連論文リスト
- Putting Gale & Shapley to Work: Guaranteeing Stability Through Learning [14.448192914855674]
両面のマッチング市場は、市場の片側からの参加者が好みに応じて反対側からの参加者と一致しなければならない、一連の問題を記述している。
我々は安定解の構造を利用して、安定解を見つける可能性を改善するアルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-10-06T06:47:53Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - The Dichotomous Affiliate Stable Matching Problem: Approval-Based
Matching with Applicant-Employer Relations [27.388757379210034]
本稿では,DASM問題(Dichotomous Affiliate Stable Matching)について紹介する。
その結果は,(1)実世界のマッチングランキングが仮定された評価関数に従うことを示すために人間による研究,(2)そのような解を見つけるための効率的で実装が容易なアルゴリズムを提供することによって,常に安定した解が存在することを証明し,(3)線形プログラミングに基づくアプローチと比較して,アルゴリズムの有効性を実験的に検証する。
論文 参考訳(メタデータ) (2022-02-22T18:56:21Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Learning Equilibria in Matching Markets from Bandit Feedback [139.29934476625488]
不確実性の下で安定した市場成果を学習するためのフレームワークとアルゴリズムを開発する。
私たちの研究は、大規模なデータ駆動の市場において、いつ、どのように安定したマッチングが生じるかを明らかにするための第一歩を踏み出します。
論文 参考訳(メタデータ) (2021-08-19T17:59:28Z) - Learning Strategies in Decentralized Matching Markets under Uncertain
Preferences [91.3755431537592]
エージェントの選好が不明な場合,共有資源の不足の設定における意思決定の問題について検討する。
我々のアプローチは、再生されたカーネルヒルベルト空間における好みの表現に基づいている。
エージェントの期待した利益を最大化する最適な戦略を導出する。
論文 参考訳(メタデータ) (2020-10-29T03:08:22Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Individual specialization in multi-task environments with multiagent
reinforcement learners [0.0]
汎用知的エージェント構築の第一歩として,マルチエージェント強化学習(MARL)への関心が高まっている。
以前の結果は、調整、効率/公平性、共有プールリソース共有の条件の増大を示唆している。
マルチタスク環境において、複数の報奨タスクを実行できるため、エージェントは必ずしも全てのタスクでうまく機能する必要はないが、特定の条件下では特殊化される可能性がある。
論文 参考訳(メタデータ) (2019-12-29T15:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。