論文の概要: Heterogeneous Multi-Player Multi-Armed Bandits Robust To Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2501.17882v1
- Date: Tue, 21 Jan 2025 08:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 07:52:47.629513
- Title: Heterogeneous Multi-Player Multi-Armed Bandits Robust To Adversarial Attacks
- Title(参考訳): 不均一なマルチプレイヤー・マルチアーマッド・バンドは敵攻撃にロバスト
- Authors: Akshayaa Magesh, Venugopal V. Veeravalli,
- Abstract要約: システム内のプレイヤーが受ける報酬に負の影響を及ぼそうとする敵の存在下で、マルチプレイヤーバンディットの設定を考える。
衝突(複数のプレイヤーが同じ腕を選択している)が発生した場合、すべての衝突したユーザーは報酬を受け取らない。
敵は、プレイヤーが受ける報酬、すなわち敵が腕を攻撃した場合、その腕を選択するプレイヤーはゼロの報酬を受ける。
- 参考スコア(独自算出の注目度): 19.184883255588126
- License:
- Abstract: We consider a multi-player multi-armed bandit setting in the presence of adversaries that attempt to negatively affect the rewards received by the players in the system. The reward distributions for any given arm are heterogeneous across the players. In the event of a collision (more than one player choosing the same arm), all the colliding users receive zero rewards. The adversaries use collisions to affect the rewards received by the players, i.e., if an adversary attacks an arm, any player choosing that arm will receive zero reward. At any time step, the adversaries may attack more than one arm. It is assumed that the players in the system do not deviate from a pre-determined policy used by all the players, and that the probability that none of the arms face adversarial attacks is strictly positive at every time step. In order to combat the adversarial attacks, the players are allowed to communicate using a single bit for $O(\log T)$ time units, where $T$ is the time horizon, and each player can only observe their own actions and rewards at all time steps. We propose a {policy that is used by all the players, which} achieves near order optimal regret of order $O(\log^{1+\delta}T + W)$, where $W$ is total number of time units for which there was an adversarial attack on at least one arm.
- Abstract(参考訳): システム内のプレイヤーが受ける報酬に負の影響を及ぼそうとする敵の存在下で、マルチプレイヤーのマルチアームバンディット設定を考える。
任意の腕の報酬分布はプレイヤー間で不均一である。
衝突(複数のプレイヤーが同じ腕を選択している)が発生した場合、すべての衝突したユーザーは報酬を受け取らない。
敵は、プレイヤーが受ける報酬、すなわち敵が腕を攻撃した場合、その腕を選択するプレイヤーはゼロの報酬を受ける。
いずれにせよ、敵は複数の腕を攻撃できる。
システム内のプレイヤーは、すべてのプレイヤーが使用する事前決定された方針から逸脱せず、両腕が敵の攻撃に直面しない確率は、各ステップで厳密に正であると仮定される。
敵の攻撃と戦うために、プレイヤーは1ビット$O(\log T)$タイムユニットで通信することができ、そこでは$T$がタイム水平線であり、各プレイヤーはそれぞれのアクションと報酬を常に観察することができる。
ここでは,少なくとも一方の腕に対向攻撃があった時間単位の総数である$O(\log^{1+\delta}T + W)$に対して,次数の最適後悔を達成できる「政治」を提案する。
関連論文リスト
- Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Optimal Cooperative Multiplayer Learning Bandits with Noisy Rewards and
No Communication [0.0]
我々は,プレイヤーが事前に戦略に合意することのみを許される,協調的なマルチプレイヤーバンディット学習問題を考える。
この問題では、各プレイヤーが同時にアクションを選択する。
我々は,このアルゴリズムが対数的$O(fraclog TDelta_bma)$(gap依存)後悔および$O(sqrtTlog T)$(gap非依存)後悔を達成することを示す。
論文 参考訳(メタデータ) (2023-11-10T17:55:44Z) - Cooperation or Competition: Avoiding Player Domination for Multi-Target
Robustness via Adaptive Budgets [76.20705291443208]
我々は、敵攻撃を、異なるプレイヤーがパラメータ更新の合同方向で合意に達するために交渉する交渉ゲームであると見なしている。
我々は、プレイヤーの優位性を避けるために、異なる敵の予算を調整する新しいフレームワークを設計する。
標準ベンチマークの実験では、提案したフレームワークを既存のアプローチに適用することで、マルチターゲットロバスト性が大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-06-27T14:02:10Z) - Competing for Shareable Arms in Multi-Player Multi-Armed Bandits [29.08799537067425]
本稿では,プレイヤーが自尊心を持ち,自己報酬を最大化することを目的とした,新しいマルチプレイヤーマルチアームバンディット(MPMAB)について検討する。
本稿では, 平均アロケーション (SMAA) を用いた新たな自己中心型MPMABを提案する。
我々は,一人の利己的なプレイヤーが,逸脱によって報酬を著しく増加させることはできず,また,他のプレイヤーの報酬に有害な影響も与えないことを確認した。
論文 参考訳(メタデータ) (2023-05-30T15:59:56Z) - Multi-Player Bandits Robust to Adversarial Collisions [31.349615523580518]
マルチプレイヤーマルチアーメッドバンドは近年広く研究されている。
本稿では,協力者による報酬の最大化を阻害する悪意あるプレイヤー(または攻撃者)の存在を,故意に連携させることで検討する。
攻撃者からのC$の衝突数が増加するにつれて、性能が良好に低下するディフェンダーに対して、最初の分散型で堅牢なアルゴリズムRESYNCを提供する。
論文 参考訳(メタデータ) (2022-11-15T00:43:26Z) - Almost Cost-Free Communication in Federated Best Arm Identification [76.12303738941254]
中央サーバと複数のクライアントを備えた多腕バンディット構成の連合学習における最適なアーム識別の問題について検討する。
逐次除去に基づく指数時間ステップでのみ通信を行う新しいアルゴリズム sc FedElim を提案する。
論文 参考訳(メタデータ) (2022-08-19T08:37:09Z) - The Pareto Frontier of Instance-Dependent Guarantees in Multi-Player
Multi-Armed Bandits with no Communication [10.446001329147112]
マルチプレイヤーのマルチアームバンディット問題について検討する。
この問題では、$m$プレーヤーは、合計報酬を$K > m$アームから最大化するために協力する。
ここで$Delta$は$m$-thと$m+1$-stのベストアームのギャップである。
論文 参考訳(メタデータ) (2022-02-19T18:19:36Z) - Bandit Learning in Decentralized Matching Markets [82.39061186055775]
私たちは、一方の市場(プレーヤー)が他方の側(腕)の好みについて事前知識を持っていない両面マッチング市場を研究し、経験からその好みを学ぶ必要があります。
このモデルは、標準のマルチアームバンディットフレームワークを競合する分散型マルチプレイヤー設定に拡張します。
アームの選好が共有されるたびにアルゴリズムがインセンティブ互換であることが示されるが、選好が完全に一般的である場合には必ずしもそうではない。
論文 参考訳(メタデータ) (2020-12-14T08:58:07Z) - Multiplayer Bandit Learning, from Competition to Cooperation [3.7801191959442053]
コンペティションと協力が探究と搾取のトレードオフに与える影響について検討する。
このモデルは、通常プレイヤーが互いの報酬を観察する戦略実験に関する経済学文献と関連している。
論文 参考訳(メタデータ) (2019-08-03T08:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。