論文の概要: Distributed Algorithms for Multi-Agent Multi-Armed Bandits with Collision
- arxiv url: http://arxiv.org/abs/2510.06683v1
- Date: Wed, 08 Oct 2025 06:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.328878
- Title: Distributed Algorithms for Multi-Agent Multi-Armed Bandits with Collision
- Title(参考訳): 衝突を考慮したマルチエージェントマルチアーマッド帯域の分散アルゴリズム
- Authors: Daoyuan Zhou, Xuchuang Wang, Lin Yang, Yang Gao,
- Abstract要約: マルチプレイヤーマルチアーマッド・バンドイット(MMAB)問題について検討し、複数のプレイヤーが腕を選択して累積報酬を最大化する。
我々は,各プレイヤーが自身の行動と衝突フィードバックのみを観察できるような,中央調整のない分散環境を考える。
本稿では,適応的かつ効率的な通信プロトコルを用いた分散アルゴリズムを提案する。このアルゴリズムは,通信コストが$mathcalO(loglog T)$で,ほぼ最適なグループと個人の後悔を実現する。
- 参考スコア(独自算出の注目度): 16.136111977594087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the stochastic Multiplayer Multi-Armed Bandit (MMAB) problem, where multiple players select arms to maximize their cumulative rewards. Collisions occur when two or more players select the same arm, resulting in no reward, and are observed by the players involved. We consider a distributed setting without central coordination, where each player can only observe their own actions and collision feedback. We propose a distributed algorithm with an adaptive, efficient communication protocol. The algorithm achieves near-optimal group and individual regret, with a communication cost of only $\mathcal{O}(\log\log T)$. Our experiments demonstrate significant performance improvements over existing baselines. Compared to state-of-the-art (SOTA) methods, our approach achieves a notable reduction in individual regret. Finally, we extend our approach to a periodic asynchronous setting, proving the lower bound for this problem and presenting an algorithm that achieves logarithmic regret.
- Abstract(参考訳): 確率的マルチプレイヤー・マルチアーマッド・バンドイット(MMAB)問題について検討し、複数のプレイヤーが腕を選択して累積報酬を最大化する。
2人以上のプレイヤーが同じ腕を選択した時に衝突が起こり、その結果報酬が得られず、関連するプレイヤーによって観察される。
我々は,各プレイヤーが自身の行動や衝突フィードバックのみを観察できるような,中央調整のない分散環境を考える。
適応的で効率的な通信プロトコルを用いた分散アルゴリズムを提案する。
このアルゴリズムは、通信コストが$\mathcal{O}(\log\log T)$のみである。
実験では,既存のベースラインよりも大幅に性能が向上した。
最新技術(SOTA)法と比較して,本手法は個人の後悔を顕著に減らすことができる。
最後に,本手法を周期的非同期設定に拡張し,この問題の下位境界を証明し,対数的後悔を実現するアルゴリズムを提案する。
関連論文リスト
- QuACK: A Multipurpose Queuing Algorithm for Cooperative $k$-Armed Bandits [5.530212768657544]
我々は、$m$エージェントのネットワークが協調して最適な行動を見つける、協調的な$k$武器の盗賊問題を研究する。
単一エージェントのバンディットアルゴリズムをマルチエージェント設定に拡張できるブラックボックスリダクションを提供する。
論文 参考訳(メタデータ) (2024-10-31T12:20:36Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - An Instance-Dependent Analysis for the Cooperative Multi-Player
Multi-Armed Bandit [93.97385339354318]
マルチプレイヤーマルチアーマッドバンドにおける情報共有と協調の課題について検討する。
まず, プレイヤーの最適度差を推定するために, 逐次的除去戦略への簡単な修正が可能であることを示す。
第2に,第1の結果を利用して,衝突の小さな報奨をプレイヤー間の協調に役立てる通信プロトコルを設計する。
論文 参考訳(メタデータ) (2021-11-08T23:38:47Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Multitask Bandit Learning Through Heterogeneous Feedback Aggregation [35.923544685900055]
我々は,この問題を,一組のプレイヤーが一組のアームと同時に相互作用する,$epsilon$-multi-player multi-armed bandit問題として定式化する。
我々は、異なるプレイヤーが収集した報酬を適応的に集約する高信頼な有界アルゴリズム、RobostAgg$(epsilon)$を開発する。
論文 参考訳(メタデータ) (2020-10-29T07:13:28Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Selfish Robustness and Equilibria in Multi-Player Bandits [25.67398941667429]
ゲームでは、複数のプレイヤーが同時に腕を引いて、同じ腕を同時に引っ張る場合、0の報酬で衝突する。
プレイヤーが集団報酬を最大化する協力的ケースは、主に考慮されてきたが、悪意のあるプレイヤーにとっては非常に重要かつ困難な問題である。
代わりに、社会的福祉を犠牲にして、個人の報酬を最大化するインセンティブを持つより自然な利己的なプレイヤーについて検討する。
論文 参考訳(メタデータ) (2020-02-04T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。