論文の概要: Modelling Cournot Games as Multi-agent Multi-armed Bandits
- arxiv url: http://arxiv.org/abs/2201.01182v1
- Date: Sat, 1 Jan 2022 22:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 13:33:19.377082
- Title: Modelling Cournot Games as Multi-agent Multi-armed Bandits
- Title(参考訳): マルチエージェントマルチアームバンディットとしてのクールノットゲームモデリング
- Authors: Kshitija Taywade, Brent Harrison, Adib Bagh
- Abstract要約: 繰り返しCournot oligopolyゲームにおけるマルチエージェントマルチアーム・バンディット(MA-MAB)の設定について検討した。
私たちは、$epsilon$-greedyアプローチが、従来のMABアプローチよりもより実行可能な学習メカニズムを提供することに気付きました。
順序付けられたアクション空間を利用する新しいアプローチとして、$epsilon$-greedy+HLと$epsilon$-greedy+ELを提案する。
- 参考スコア(独自算出の注目度): 4.751331778201811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the use of a multi-agent multi-armed bandit (MA-MAB) setting
for modeling repeated Cournot oligopoly games, where the firms acting as agents
choose from the set of arms representing production quantity (a discrete
value). Agents interact with separate and independent bandit problems. In this
formulation, each agent makes sequential choices among arms to maximize its own
reward. Agents do not have any information about the environment; they can only
see their own rewards after taking an action. However, the market demand is a
stationary function of total industry output, and random entry or exit from the
market is not allowed. Given these assumptions, we found that an
$\epsilon$-greedy approach offers a more viable learning mechanism than other
traditional MAB approaches, as it does not require any additional knowledge of
the system to operate. We also propose two novel approaches that take advantage
of the ordered action space: $\epsilon$-greedy+HL and $\epsilon$-greedy+EL.
These new approaches help firms to focus on more profitable actions by
eliminating less profitable choices and hence are designed to optimize the
exploration. We use computer simulations to study the emergence of various
equilibria in the outcomes and do the empirical analysis of joint cumulative
regrets.
- Abstract(参考訳): 本研究では,マルチエージェント・マルチアーム・バンディット(MA-MAB)を用いて繰り返しCournot oligopolyゲームをモデル化し,エージェントとして働く企業は生産量(離散値)を表すアームセットから選択する。
エージェントは独立したバンドイット問題と相互作用する。
この定式化において、各エージェントは、自身の報酬を最大化するために、腕間で順次選択を行う。
エージェントは環境に関する情報を持っておらず、アクションを行った後のみ自分の報酬を見ることができる。
しかし、市場需要は総工業生産の定常的な機能であり、市場からのランダムな参入や離脱は許されない。
これらの仮定から、$\epsilon$-greedyアプローチが従来のMABアプローチよりも有効な学習メカニズムを提供することがわかった。
また、順序付けられたアクション空間を利用する2つの新しいアプローチを提案する:$\epsilon$-greedy+hl と $\epsilon$-greedy+el である。
これらの新しいアプローチは、利益の少ない選択肢を排除し、企業がより利益の出る行動に集中できるようにする。
計算機シミュレーションを用いて結果における様々な平衡の出現を研究し,共同累積後悔の実証分析を行う。
関連論文リスト
- Survival Multiarmed Bandits with Bootstrapping Methods [0.0]
Survival Multiarmed Bandits (S-MAB) 問題は、エージェントを観察された報酬に関連する予算に制限する拡張である。
本稿では, 破壊的逆転成分によってバランスの取れた目的関数を用いて, そのような双対目標に対処する枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:21:10Z) - Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Using Non-Stationary Bandits for Learning in Repeated Cournot Games with
Non-Stationary Demand [11.935419090901524]
本稿では,非定常要求の繰り返しCournotゲームについてモデル化する。
エージェントが選択できる武器/アクションのセットは、個別の生産量を表す。
本稿では,よく知られた$epsilon$-greedyアプローチに基づく,新しいアルゴリズム"Adaptive with Weighted Exploration (AWE) $epsilon$-greedy"を提案する。
論文 参考訳(メタデータ) (2022-01-03T05:51:47Z) - Incentivized Bandit Learning with Self-Reinforcing User Preferences [9.233886766950054]
本稿では,多くのレコメンデーションシステムにおける実世界の現象を考慮したマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する。
我々は「At-Least-$n$ Explore-Then-Commit」と「UCB-List」という2つのMABポリシーを提案する。
両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。
論文 参考訳(メタデータ) (2021-05-19T01:06:32Z) - Non-cooperative Multi-agent Systems with Exploring Agents [10.736626320566707]
マルコフゲームを用いたマルチエージェント動作の規範モデルを開発した。
エージェントが探索するが、最適戦略に近い」モデルに焦点を当てる。
論文 参考訳(メタデータ) (2020-05-25T19:34:29Z) - Value Variance Minimization for Learning Approximate Equilibrium in
Aggregation Systems [8.140037969280716]
集約システムにおける近似平衡解(ウィンウィン)の学習問題を考察する。
本稿では,集約システムにおける近似平衡解(ウィンウィン)の学習の問題について考察する。
論文 参考訳(メタデータ) (2020-03-16T10:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。