論文の概要: Value Variance Minimization for Learning Approximate Equilibrium in
Aggregation Systems
- arxiv url: http://arxiv.org/abs/2003.07088v1
- Date: Mon, 16 Mar 2020 10:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 02:49:30.053334
- Title: Value Variance Minimization for Learning Approximate Equilibrium in
Aggregation Systems
- Title(参考訳): 集約システムにおける近似平衡学習のための値変数最小化
- Authors: Tanvi Verma, Pradeep Varakantham
- Abstract要約: 集約システムにおける近似平衡解(ウィンウィン)の学習問題を考察する。
本稿では,集約システムにおける近似平衡解(ウィンウィン)の学習の問題について考察する。
- 参考スコア(独自算出の注目度): 8.140037969280716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For effective matching of resources (e.g., taxis, food, bikes, shopping
items) to customer demand, aggregation systems have been extremely successful.
In aggregation systems, a central entity (e.g., Uber, Food Panda, Ofo)
aggregates supply (e.g., drivers, delivery personnel) and matches demand to
supply on a continuous basis (sequential decisions). Due to the objective of
the central entity to maximize its profits, individual suppliers get sacrificed
thereby creating incentive for individuals to leave the system. In this paper,
we consider the problem of learning approximate equilibrium solutions (win-win
solutions) in aggregation systems, so that individuals have an incentive to
remain in the aggregation system.
Unfortunately, such systems have thousands of agents and have to consider
demand uncertainty and the underlying problem is a (Partially Observable)
Stochastic Game. Given the significant complexity of learning or planning in a
stochastic game, we make three key contributions: (a) To exploit
infinitesimally small contribution of each agent and anonymity (reward and
transitions between agents are dependent on agent counts) in interactions, we
represent this as a Multi-Agent Reinforcement Learning (MARL) problem that
builds on insights from non-atomic congestion games model; (b) We provide a
novel variance reduction mechanism for moving joint solution towards Nash
Equilibrium that exploits the infinitesimally small contribution of each agent;
and finally (c) We provide detailed results on three different domains to
demonstrate the utility of our approach in comparison to state-of-the-art
methods.
- Abstract(参考訳): 顧客需要に対する資源(タクシー、食品、自転車、ショッピングアイテムなど)の効果的なマッチングのために、集約システムは極めて成功した。
集約システムでは、中央のエンティティ(Uber、Food Panda、Ofoなど)が供給(ドライバー、配送担当者など)を集約し、継続的に供給する需要と一致させる(シークエンシャルな決定)。
利益を最大化するための中央機関の目的により、個々のサプライヤは犠牲にされ、個人がシステムを離れるインセンティブが生まれる。
本稿では,アグリゲーションシステムにおける近似平衡解(ウィンウィン解)の学習の問題を考える。
残念ながら、このようなシステムは何千ものエージェントを持ち、需要の不確実性を考慮する必要があり、根底にある問題は(部分的に観察可能な)確率ゲームである。
確率ゲームにおける学習や計画の重大な複雑さを考えると、3つの重要な貢献をします。
a) 相互作用における各エージェントの無限に小さな貢献と匿名性(エージェント間の遷移はエージェント数に依存する)を利用するため、これをマルチエージェント強化学習(marl)問題として表現し、非原子間混雑ゲームモデルからの洞察に基づいている。
b) 各エージェントの無限小の寄与を生かしたナッシュ平衡へのジョイント溶液の移動のための新しい分散還元機構を提供する。
c) 3つの異なるドメインについて詳細な結果を提供し,最先端手法と比較して,このアプローチの有用性を実証する。
関連論文リスト
- Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Learning Individual Policies in Large Multi-agent Systems through Local
Variance Minimization [8.140037969280716]
多くのエージェントを持つマルチエージェントシステムでは、各エージェントの他のエージェントの価値への貢献は最小限である。
エージェントの値の分散を最小限に抑える新しいマルチエージェント強化学習(MARL)機構を提案する。
提案手法は, タクシー運転手の収益のばらつきを低減しつつ, 先行するアプローチよりも高いジョイント収益を提供できることを示す。
論文 参考訳(メタデータ) (2022-12-27T06:59:00Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Modelling Cournot Games as Multi-agent Multi-armed Bandits [4.751331778201811]
繰り返しCournot oligopolyゲームにおけるマルチエージェントマルチアーム・バンディット(MA-MAB)の設定について検討した。
私たちは、$epsilon$-greedyアプローチが、従来のMABアプローチよりもより実行可能な学習メカニズムを提供することに気付きました。
順序付けられたアクション空間を利用する新しいアプローチとして、$epsilon$-greedy+HLと$epsilon$-greedy+ELを提案する。
論文 参考訳(メタデータ) (2022-01-01T22:02:47Z) - Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima [114.31577038081026]
本稿では,デザイナーとエージェントの問題を同時に1ループで解くための効率的な手法を提案する。
設計者は平衡問題を何度も解決しないが、エージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域的最適値に収束することを示す。
論文 参考訳(メタデータ) (2021-10-04T06:53:59Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。
本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文 参考訳(メタデータ) (2020-06-23T15:14:20Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。