Fugu-MT 論文翻訳(概要): Modelling Cournot Games as Multi-agent Multi-armed Bandits

論文の概要: Modelling Cournot Games as Multi-agent Multi-armed Bandits

arxiv url: http://arxiv.org/abs/2201.01182v1
Date: Sat, 1 Jan 2022 22:02:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-05 13:33:19.377082
Title: Modelling Cournot Games as Multi-agent Multi-armed Bandits
Title（参考訳）: マルチエージェントマルチアームバンディットとしてのクールノットゲームモデリング
Authors: Kshitija Taywade, Brent Harrison, Adib Bagh
Abstract要約: 繰り返しCournot oligopolyゲームにおけるマルチエージェントマルチアーム・バンディット(MA-MAB)の設定について検討した。私たちは、$epsilon$-greedyアプローチが、従来のMABアプローチよりもより実行可能な学習メカニズムを提供することに気付きました。順序付けられたアクション空間を利用する新しいアプローチとして、$epsilon$-greedy+HLと$epsilon$-greedy+ELを提案する。
参考スコア（独自算出の注目度）: 4.751331778201811
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the use of a multi-agent multi-armed bandit (MA-MAB) setting for modeling repeated Cournot oligopoly games, where the firms acting as agents choose from the set of arms representing production quantity (a discrete value). Agents interact with separate and independent bandit problems. In this formulation, each agent makes sequential choices among arms to maximize its own reward. Agents do not have any information about the environment; they can only see their own rewards after taking an action. However, the market demand is a stationary function of total industry output, and random entry or exit from the market is not allowed. Given these assumptions, we found that an $\epsilon$-greedy approach offers a more viable learning mechanism than other traditional MAB approaches, as it does not require any additional knowledge of the system to operate. We also propose two novel approaches that take advantage of the ordered action space: $\epsilon$-greedy+HL and $\epsilon$-greedy+EL. These new approaches help firms to focus on more profitable actions by eliminating less profitable choices and hence are designed to optimize the exploration. We use computer simulations to study the emergence of various equilibria in the outcomes and do the empirical analysis of joint cumulative regrets.
Abstract（参考訳）: 本研究では,マルチエージェント・マルチアーム・バンディット(MA-MAB)を用いて繰り返しCournot oligopolyゲームをモデル化し,エージェントとして働く企業は生産量(離散値)を表すアームセットから選択する。エージェントは独立したバンドイット問題と相互作用する。この定式化において、各エージェントは、自身の報酬を最大化するために、腕間で順次選択を行う。エージェントは環境に関する情報を持っておらず、アクションを行った後のみ自分の報酬を見ることができる。しかし、市場需要は総工業生産の定常的な機能であり、市場からのランダムな参入や離脱は許されない。これらの仮定から、$\epsilon$-greedyアプローチが従来のMABアプローチよりも有効な学習メカニズムを提供することがわかった。また、順序付けられたアクション空間を利用する2つの新しいアプローチを提案する:$\epsilon$-greedy+hl と $\epsilon$-greedy+el である。これらの新しいアプローチは、利益の少ない選択肢を排除し、企業がより利益の出る行動に集中できるようにする。計算機シミュレーションを用いて結果における様々な平衡の出現を研究し,共同累積後悔の実証分析を行う。

関連論文リスト

Strategic Multi-Armed Bandit Problems Under Debt-Free Reporting [21.14355421498382]
我々は、古典的なマルチアームバンディット問題を考えるが、戦略的な武器で考える。両腕が真に振る舞う平衡を確立するための新しいメカニズムを導入し、その報酬をできるだけ多く開示する。この機構により、エージェントは腕の中で2番目に高い(真の)報酬を得ることができ、累積的後悔は$O(log(T)/Delta)$(problem-dependent)または$O(sqrtTlog(T))$(worst-case)で束縛される。
論文参考訳（メタデータ） (2025-01-27T13:01:34Z)
Competing Bandits in Decentralized Large Contextual Matching Markets [13.313881962771777]
我々は、需要側(プレイヤーまたはエージェント)が大きな供給側(腕)と競合する二面的マッチング市場における分散学習を研究する。提案アルゴリズムは,腕の数によらず,インスタンス依存の対数的後悔を実現する。
論文参考訳（メタデータ） (2024-11-18T18:08:05Z)
Survival Multiarmed Bandits with Bootstrapping Methods [0.0]
Survival Multiarmed Bandits (S-MAB) 問題は、エージェントを観察された報酬に関連する予算に制限する拡張である。本稿では, 破壊的逆転成分によってバランスの取れた目的関数を用いて, そのような双対目標に対処する枠組みを提案する。
論文参考訳（メタデータ） (2024-10-21T20:21:10Z)
Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。 UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文参考訳（メタデータ） (2024-10-08T09:49:47Z)
Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文参考訳（メタデータ） (2023-12-30T18:30:44Z)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文参考訳（メタデータ） (2023-12-13T06:54:49Z)
Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文参考訳（メタデータ） (2022-11-23T22:20:12Z)
Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文参考訳（メタデータ） (2022-08-22T17:24:55Z)
Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文参考訳（メタデータ） (2022-06-13T09:17:40Z)
Using Non-Stationary Bandits for Learning in Repeated Cournot Games with Non-Stationary Demand [11.935419090901524]
本稿では,非定常要求の繰り返しCournotゲームについてモデル化する。エージェントが選択できる武器/アクションのセットは、個別の生産量を表す。本稿では,よく知られた$epsilon$-greedyアプローチに基づく,新しいアルゴリズム"Adaptive with Weighted Exploration (AWE) $epsilon$-greedy"を提案する。
論文参考訳（メタデータ） (2022-01-03T05:51:47Z)
Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習 cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。 epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文参考訳（メタデータ） (2021-10-07T18:55:49Z)
Incentivized Bandit Learning with Self-Reinforcing User Preferences [9.233886766950054]
本稿では,多くのレコメンデーションシステムにおける実世界の現象を考慮したマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する。我々は「At-Least-$n$ Explore-Then-Commit」と「UCB-List」という2つのMABポリシーを提案する。両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。
論文参考訳（メタデータ） (2021-05-19T01:06:32Z)
Value Variance Minimization for Learning Approximate Equilibrium in Aggregation Systems [8.140037969280716]
集約システムにおける近似平衡解(ウィンウィン)の学習問題を考察する。本稿では,集約システムにおける近似平衡解(ウィンウィン)の学習の問題について考察する。
論文参考訳（メタデータ） (2020-03-16T10:02:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。