論文の概要: Meet Me at the Arm: The Cooperative Multi-Armed Bandits Problem with Shareable Arms
- arxiv url: http://arxiv.org/abs/2506.10127v1
- Date: Wed, 11 Jun 2025 19:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.408685
- Title: Meet Me at the Arm: The Cooperative Multi-Armed Bandits Problem with Shareable Arms
- Title(参考訳): Me at the Arm: 共有可能なアームによる協調的マルチアーマッドバンド問題
- Authors: Xinyi Hu, Aldo Pacchiano,
- Abstract要約: 本研究では,非センシング環境下での分散マルチプレイヤーマルチアームバンディット(MMAB)問題について検討する。
腕を引っ張る選手の数がその能力を超えると、関係者は全員無報酬となる。
A-CAPELLA(Algorithm for Capacity-Aware Parallel Elimination for Learning and Allocation)を提案する。
- 参考スコア(独自算出の注目度): 24.5966337811692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the decentralized multi-player multi-armed bandits (MMAB) problem under a no-sensing setting, where each player receives only their own reward and obtains no information about collisions. Each arm has an unknown capacity, and if the number of players pulling an arm exceeds its capacity, all players involved receive zero reward. This setting generalizes the classical unit-capacity model and introduces new challenges in coordination and capacity discovery under severe feedback limitations. We propose A-CAPELLA (Algorithm for Capacity-Aware Parallel Elimination for Learning and Allocation), a decentralized algorithm that achieves logarithmic regret in this generalized regime. Our main contribution is a collaborative hypothesis testing protocol that enables synchronized successive elimination and capacity estimation through carefully structured collision patterns. This represents a provably efficient learning result in decentralized no-sensing MMAB with unknown arm capacities.
- Abstract(参考訳): 我々は,各プレイヤーが自身の報酬のみを受け取り,衝突に関する情報を得られない,無感覚環境下で,分散マルチプレイヤーマルチアーム・バンディット(MMAB)問題を調査する。
各腕には未知の能力があり、腕を引っ張る選手の数がその能力を超えると、関係者のプレイヤーは報酬をゼロにする。
この設定は、古典的な単位容量モデルを一般化し、厳しいフィードバック制限の下で調整とキャパシティ発見の新たな課題を導入する。
本稿では,A-CAPELLA (Algorithm for Capacity-Aware Parallel Elimination for Learning and Allocation)を提案する。
我々の主な貢献は、注意深く構造化された衝突パターンを通して連続的な除去とキャパシティ推定を可能にする協調仮説テストプロトコルである。
これは、未知の腕能力を持つ非分散的無感覚MMABにおいて、証明可能な効率のよい学習結果を示す。
関連論文リスト
- Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Clustered Linear Contextual Bandits with Knapsacks [9.668078830796999]
本研究では,クラスタ固有の線形モデルの帰結として,報酬と資源消費が帰結するクラスタ化されたコンテキスト帯について検討する。
一定期間に腕を引っ張ると、複数のリソースのそれぞれに対して報酬と消費が生じる。
ランダムに選択された腕の部分集合に1回だけクラスタリングを実行するだけで十分であることを示す。
論文 参考訳(メタデータ) (2023-08-21T13:47:13Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Decentralized Stochastic Multi-Player Multi-Armed Walking Bandits [6.732901486505047]
マルチプレイヤーのマルチアームバンディットは、認知無線システムへの応用を動機とした、ますます関連する意思決定問題である。
本稿では、前述のモデリング問題に対処することを目的とした、テキストマルチプレーヤのマルチアームウォーキングバンディットモデルを提案する。
論文 参考訳(メタデータ) (2022-12-12T23:26:02Z) - Multiple-Play Stochastic Bandits with Shareable Finite-Capacity Arms [32.313813562222066]
マルチプレイマルチアームバンディット(MP-MAB)問題を共有アーム設定で一般化する。
各共有可能なアームは、有限報酬能力と'per-load'の報酬分布を有する。
本稿では,この問題に対処し,その後悔すべき上限を証明するためのオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T13:47:27Z) - Multi-Player Multi-Armed Bandits with Finite Shareable Resources Arms:
Learning Algorithms & Applications [32.313813562222066]
本研究では,分散化されたプレイヤーが協調して同じマルチアームバンディットをプレイし,総累積報酬を最大化する方法について検討する。
既存のMMABモデルは、複数のプレイヤーが同じ腕を引っ張った場合、衝突を起こし、報酬がゼロになるか、衝突が無く、独立した報酬が得られると仮定する。
衝突と非衝突設定の拡張として,共有可能な資源を持つMMABを提案する。
論文 参考訳(メタデータ) (2022-04-28T13:46:59Z) - Selfish Robustness and Equilibria in Multi-Player Bandits [25.67398941667429]
ゲームでは、複数のプレイヤーが同時に腕を引いて、同じ腕を同時に引っ張る場合、0の報酬で衝突する。
プレイヤーが集団報酬を最大化する協力的ケースは、主に考慮されてきたが、悪意のあるプレイヤーにとっては非常に重要かつ困難な問題である。
代わりに、社会的福祉を犠牲にして、個人の報酬を最大化するインセンティブを持つより自然な利己的なプレイヤーについて検討する。
論文 参考訳(メタデータ) (2020-02-04T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。