論文の概要: Multi-Agent Lipschitz Bandits
- arxiv url: http://arxiv.org/abs/2602.16965v1
- Date: Wed, 18 Feb 2026 23:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.528268
- Title: Multi-Agent Lipschitz Bandits
- Title(参考訳): マルチエージェントリプシッツバンド
- Authors: Sourav Chakraborty, Amit Kiran Rege, Claire Monteleoni, Lijun Chen,
- Abstract要約: 連続的なリプシッツ構造を有するアクション空間上での分散マルチプレイヤーバンディット問題について検討する。
そこで本稿では,この問題を独立したシングルプレイヤーLipschitzブリストレットに分離するプロトコルを提案する。
我々は、$tildeO(T(d+1)/(d+2))$と$T$非依存的な調整コストのほぼ最適の後悔境界を確立し、シングルプレイヤーレートに適合する。
- 参考スコア(独自算出の注目度): 7.465238700168576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the decentralized multi-player stochastic bandit problem over a continuous, Lipschitz-structured action space where hard collisions yield zero reward. Our objective is to design a communication-free policy that maximizes collective reward, with coordination costs that are independent of the time horizon $T$. We propose a modular protocol that first solves the multi-agent coordination problem -- identifying and seating players on distinct high-value regions via a novel maxima-directed search -- and then decouples the problem into $N$ independent single-player Lipschitz bandits. We establish a near-optimal regret bound of $\tilde{O}(T^{(d+1)/(d+2)})$ plus a $T$-independent coordination cost, matching the single-player rate. To our knowledge, this is the first framework providing such guarantees, and it extends to general distance-threshold collision models.
- Abstract(参考訳): ハード衝突がゼロ報酬となる連続リプシッツ構造アクション空間上での分散マルチプレイヤー確率的バンディット問題について検討する。
我々の目標は、時間的地平線に依存しない調整コストで、集団報酬を最大化する通信自由政策を設計することである。
そこで我々は,まず,新たな最大方向探索により,異なる高値領域のプレイヤーを特定し,座るというマルチエージェント協調問題を解くモジュールプロトコルを提案し,その後,問題を$N$独立シングルプレイヤーのリプシッツブリストに分解する。
我々は,$\tilde{O}(T^{(d+1)/(d+2)})$と$T$非依存的な調整コストのほぼ最適残差を,シングルプレイヤーレートと一致するように設定する。
我々の知る限り、このような保証を提供する最初のフレームワークであり、一般的な距離閾値衝突モデルにまで拡張されている。
関連論文リスト
- Distributed Algorithms for Multi-Agent Multi-Armed Bandits with Collision [16.136111977594087]
マルチプレイヤーマルチアーマッド・バンドイット(MMAB)問題について検討し、複数のプレイヤーが腕を選択して累積報酬を最大化する。
我々は,各プレイヤーが自身の行動と衝突フィードバックのみを観察できるような,中央調整のない分散環境を考える。
本稿では,適応的かつ効率的な通信プロトコルを用いた分散アルゴリズムを提案する。このアルゴリズムは,通信コストが$mathcalO(loglog T)$で,ほぼ最適なグループと個人の後悔を実現する。
論文 参考訳(メタデータ) (2025-10-08T06:12:59Z) - Batched Stochastic Matching Bandits [43.651070266360954]
本稿では,MNL選択モデルに基づくマッチングのための新しい帯域幅フレームワークを提案する。
私たちの設定では、一方の$N$エージェントは他方の$K$アームに割り当てられます。
目的は、すべてのエージェントで成功した試合から累積収入を最大化することで、後悔を最小限に抑えることである。
論文 参考訳(メタデータ) (2025-09-04T13:16:32Z) - Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Provably Efficient Generalized Lagrangian Policy Optimization for Safe
Multi-Agent Reinforcement Learning [105.7510838453122]
制約付きマルコフゲームを用いたオンライン安全なマルチエージェント強化学習について検討する。
我々は,このラグランジアン問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と,投影勾配ステップによる双対変数を更新する。
論文 参考訳(メタデータ) (2023-05-31T22:09:24Z) - Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits [81.60136088841948]
本稿では,時間軸における後悔を最小限に抑えるアルゴリズムを提案する。
提案アルゴリズムは,レコメンデーションシステムや交通機関などの分野に適用可能である。
論文 参考訳(メタデータ) (2023-01-31T03:49:00Z) - A Simple and Provably Efficient Algorithm for Asynchronous Federated
Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。
すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。
texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文 参考訳(メタデータ) (2022-07-07T06:16:19Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Distributed Contextual Linear Bandits with Minimax Optimal Communication
Cost [48.288452411283444]
そこでは,$N$エージェントが協調して,$d$次元の特徴を持つ線形帯域最適化問題を解く。
本稿では,LinUCBアルゴリズムの分散バッチ除去版であるDisBE-LUCBを提案する。
我々は、DisBE-LUCBの通信コストがわずか$tildemathcalO(dN)$であり、その後悔は少なくとも$tildemathcalO(dN)$であることを示す。
論文 参考訳(メタデータ) (2022-05-26T05:56:23Z) - The Pareto Frontier of Instance-Dependent Guarantees in Multi-Player
Multi-Armed Bandits with no Communication [10.446001329147112]
マルチプレイヤーのマルチアームバンディット問題について検討する。
この問題では、$m$プレーヤーは、合計報酬を$K > m$アームから最大化するために協力する。
ここで$Delta$は$m$-thと$m+1$-stのベストアームのギャップである。
論文 参考訳(メタデータ) (2022-02-19T18:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。