論文の概要: Strategic Arms with Side Communication Prevail Over Low-Regret MAB Algorithms
- arxiv url: http://arxiv.org/abs/2408.17101v1
- Date: Fri, 30 Aug 2024 08:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:58:20.776747
- Title: Strategic Arms with Side Communication Prevail Over Low-Regret MAB Algorithms
- Title(参考訳): 低レグリートMABアルゴリズムにおけるサイドコミュニケーションを用いたストラテジックアーム
- Authors: Ahmed Ben Yahmed, Clément Calauzènes, Vianney Perchet,
- Abstract要約: 腕がプレイヤーの行動についての完全な情報を持っている場合、プレイヤーは次の均衡を確立することができる: 1) ほぼすべての価値を保持し、2) プレイヤーは実質的な(直線的な)後悔をもって去る。
この研究は、完全な情報がすべての腕に公開されていないが、それらの間で共有されているとしても、同様の平衡を達成することが可能であることを示している。
- 参考スコア(独自算出の注目度): 21.14355421498382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the strategic multi-armed bandit setting, when arms possess perfect information about the player's behavior, they can establish an equilibrium where: 1. they retain almost all of their value, 2. they leave the player with a substantial (linear) regret. This study illustrates that, even if complete information is not publicly available to all arms but is shared among them, it is possible to achieve a similar equilibrium. The primary challenge lies in designing a communication protocol that incentivizes the arms to communicate truthfully.
- Abstract(参考訳): 戦略的なマルチアーム・バンディット・セッティングでは、腕がプレイヤーの行動についての完全な情報を持っている場合、彼らは次の均衡を確立することができる。
1 ほとんどすべての価値を 保持しています
2 実質的な(直線的な)後悔でプレイヤーを去る。
この研究は、完全な情報がすべての腕に公開されていないが、それらの間で共有されているとしても、同様の平衡を達成することが可能であることを示している。
主な課題は、真にコミュニケーションするための武器を動機付ける通信プロトコルを設計することである。
関連論文リスト
- Learning to Coordinate without Communication under Incomplete Information [39.106914895158035]
自律的なエージェントが、パートナーの行動を解釈することで、どのように協力するかを示す。
Gnomes at Nightというテストベッドの実験結果から、学習したコミュニケーションの協調戦略が成功率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-09-19T01:41:41Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Competing for Shareable Arms in Multi-Player Multi-Armed Bandits [29.08799537067425]
本稿では,プレイヤーが自尊心を持ち,自己報酬を最大化することを目的とした,新しいマルチプレイヤーマルチアームバンディット(MPMAB)について検討する。
本稿では, 平均アロケーション (SMAA) を用いた新たな自己中心型MPMABを提案する。
我々は,一人の利己的なプレイヤーが,逸脱によって報酬を著しく増加させることはできず,また,他のプレイヤーの報酬に有害な影響も与えないことを確認した。
論文 参考訳(メタデータ) (2023-05-30T15:59:56Z) - Abstracting Imperfect Information Away from Two-Player Zero-Sum Games [85.27865680662973]
Nayyar et al. (2013) は、プレイヤーがプレイ中にポリシーを公に発表することで、不完全な情報を共通のペイオフゲームから抽象化できることを示した。
この研究は、ある正規化された平衡が上記の非対応問題を持たないことを示している。
これらの正規化された平衡はナッシュ平衡に任意に近づくことができるので、この結果は2つのプレイヤーゼロサムゲームを解くための新たな視点への扉を開く。
論文 参考訳(メタデータ) (2023-01-22T16:54:06Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Collaborative Learning in General Graphs with Limited Memorization:
Complexity, Learnability, and Reliability [30.432136485068572]
エージェントが任意に連結された一般グラフにおいて、K武装のバンディット問題を考える。
目標は、各エージェントが最終的に最高の腕を学習できるようにすることです。
本稿では,3段階の協調学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-29T02:42:25Z) - An Instance-Dependent Analysis for the Cooperative Multi-Player
Multi-Armed Bandit [93.97385339354318]
マルチプレイヤーマルチアーマッドバンドにおける情報共有と協調の課題について検討する。
まず, プレイヤーの最適度差を推定するために, 逐次的除去戦略への簡単な修正が可能であることを示す。
第2に,第1の結果を利用して,衝突の小さな報奨をプレイヤー間の協調に役立てる通信プロトコルを設計する。
論文 参考訳(メタデータ) (2021-11-08T23:38:47Z) - Cooperative and Stochastic Multi-Player Multi-Armed Bandit: Optimal
Regret With Neither Communication Nor Collisions [4.974932889340056]
我々は、多腕バンディット問題の協調型マルチプレイヤー版を考える。
これらの特性は,任意の数の選手や腕に対して達成可能であることを示す。
論文 参考訳(メタデータ) (2020-11-08T03:14:19Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Signaling in Bayesian Network Congestion Games: the Subtle Power of
Symmetry [66.82463322411614]
本論文は, 最適遠点透過型シグナリング方式の問題点に焦点をあて, 対称性がその解法において重要な性質であることを示す。
プレイヤーが対称でアフィンコスト関数を持つとき,最適なエクアント説得スキームが計算可能であることを示す。
論文 参考訳(メタデータ) (2020-02-12T19:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。