Fugu-MT 論文翻訳(概要): An Instance-Dependent Analysis for the Cooperative Multi-Player Multi-Armed Bandit

論文の概要: An Instance-Dependent Analysis for the Cooperative Multi-Player Multi-Armed Bandit

arxiv url: http://arxiv.org/abs/2111.04873v1
Date: Mon, 8 Nov 2021 23:38:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-10 14:50:14.991683
Title: An Instance-Dependent Analysis for the Cooperative Multi-Player Multi-Armed Bandit
Title（参考訳）: 協調型マルチプレイヤー・マルチアーム・バンディットのインスタンス依存分析
Authors: Aldo Pacchiano, Peter Bartlett, Michael I. Jordan
Abstract要約: マルチプレイヤーマルチアーマッドバンドにおける情報共有と協調の課題について検討する。まず, プレイヤーの最適度差を推定するために, 逐次的除去戦略への簡単な修正が可能であることを示す。第2に,第1の結果を利用して,衝突の小さな報奨をプレイヤー間の協調に役立てる通信プロトコルを設計する。
参考スコア（独自算出の注目度）: 93.97385339354318
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of information sharing and cooperation in Multi-Player Multi-Armed bandits. We propose the first algorithm that achieves logarithmic regret for this problem. Our results are based on two innovations. First, we show that a simple modification to a successive elimination strategy can be used to allow the players to estimate their suboptimality gaps, up to constant factors, in the absence of collisions. Second, we leverage the first result to design a communication protocol that successfully uses the small reward of collisions to coordinate among players, while preserving meaningful instance-dependent logarithmic regret guarantees.
Abstract（参考訳）: マルチプレイヤーマルチアーマッドバンドにおける情報共有と協調の課題について検討する。本稿では,この問題に対する対数的後悔を実現するアルゴリズムを提案する。私たちの結果は2つのイノベーションに基づいている。まず, 逐次除去戦略の簡単な修正により, プレイヤーが衝突がなければ, 一定の要因まで, それらの部分最適化ギャップを推定できることを示す。第2に、第1結果は、有意義なインスタンス依存の対数的後悔の保証を保ちながら、プレイヤー間での衝突の小さな報酬をうまく利用する通信プロトコルの設計に活用する。

関連論文リスト

Distributed Algorithms for Multi-Agent Multi-Armed Bandits with Collision [16.136111977594087]
マルチプレイヤーマルチアーマッド・バンドイット(MMAB)問題について検討し、複数のプレイヤーが腕を選択して累積報酬を最大化する。我々は,各プレイヤーが自身の行動と衝突フィードバックのみを観察できるような,中央調整のない分散環境を考える。本稿では,適応的かつ効率的な通信プロトコルを用いた分散アルゴリズムを提案する。このアルゴリズムは,通信コストが$mathcalO(loglog T)$で,ほぼ最適なグループと個人の後悔を実現する。
論文参考訳（メタデータ） (2025-10-08T06:12:59Z)
Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文参考訳（メタデータ） (2024-05-25T10:25:48Z)
Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文参考訳（メタデータ） (2023-12-19T20:01:42Z)
Versatile Dueling Bandits: Best-of-both-World Analyses for Online Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文参考訳（メタデータ） (2022-02-14T13:37:23Z)
No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文参考訳（メタデータ） (2022-01-30T06:10:04Z)
Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文参考訳（メタデータ） (2021-05-25T10:08:41Z)
Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文参考訳（メタデータ） (2021-01-21T10:35:09Z)
Cooperative and Stochastic Multi-Player Multi-Armed Bandit: Optimal Regret With Neither Communication Nor Collisions [4.974932889340056]
我々は、多腕バンディット問題の協調型マルチプレイヤー版を考える。これらの特性は,任意の数の選手や腕に対して達成可能であることを示す。
論文参考訳（メタデータ） (2020-11-08T03:14:19Z)
Multitask Bandit Learning Through Heterogeneous Feedback Aggregation [35.923544685900055]
我々は,この問題を,一組のプレイヤーが一組のアームと同時に相互作用する,$epsilon$-multi-player multi-armed bandit問題として定式化する。我々は、異なるプレイヤーが収集した報酬を適応的に集約する高信頼な有界アルゴリズム、RobostAgg$(epsilon)$を開発する。
論文参考訳（メタデータ） (2020-10-29T07:13:28Z)
Selfish Robustness and Equilibria in Multi-Player Bandits [25.67398941667429]
ゲームでは、複数のプレイヤーが同時に腕を引いて、同じ腕を同時に引っ張る場合、0の報酬で衝突する。プレイヤーが集団報酬を最大化する協力的ケースは、主に考慮されてきたが、悪意のあるプレイヤーにとっては非常に重要かつ困難な問題である。代わりに、社会的福祉を犠牲にして、個人の報酬を最大化するインセンティブを持つより自然な利己的なプレイヤーについて検討する。
論文参考訳（メタデータ） (2020-02-04T09:50:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。