論文の概要: Combinatorial Bandits under Strategic Manipulations
- arxiv url: http://arxiv.org/abs/2102.12722v1
- Date: Thu, 25 Feb 2021 07:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-27 11:23:54.242926
- Title: Combinatorial Bandits under Strategic Manipulations
- Title(参考訳): 戦略的操作による組合せバンディット
- Authors: Jing Dong, Ke Li, Shuai Li, Baoxiang Wang
- Abstract要約: 報奨の戦略的操作下でのマルチアームバンディット(cmab)の問題点について検討し,各アームは自己の利益のために報奨信号を変更することができる。
私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。
- 参考スコア(独自算出の注目度): 25.882801456026584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of combinatorial multi-armed bandits (CMAB) under
strategic manipulations of rewards, where each arm can modify the emitted
reward signals for its own interest. Our setting elaborates a more realistic
model of adaptive arms that imposes relaxed assumptions compared to adversarial
corruptions and adversarial attacks. Algorithms designed under strategic arms
gain robustness in real applications while avoiding being overcautious and
hampering the performance. We bridge the gap between strategic manipulations
and adversarial attacks by investigating the optimal colluding strategy among
arms under the MAB problem. We then propose a strategic variant of the
combinatorial UCB algorithm, which has a regret of at most $O(m\log T + m
B_{max})$ under strategic manipulations, where $T$ is the time horizon, $m$ is
the number of arms, and $B_{max}$ is the maximum budget. We further provide
lower bounds on the strategic budgets for attackers to incur certain regret of
the bandit algorithm. Extensive experiments corroborate our theoretical
findings on robustness and regret bounds, in a variety of regimes of
manipulation budgets.
- Abstract(参考訳): 報酬の戦略的操作によるCMAB(Combinary Multi-armed Bandits)の問題について検討し,各腕がそれぞれの利益のために出力された報酬信号を修正できることを示した。
私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。
戦略兵器の下で設計されたアルゴリズムは、過度に慎重でパフォーマンスを阻害しながら、実際のアプリケーションで堅牢性を獲得する。
我々は,mab問題下でのアーム間の最適結束戦略を検討することにより,戦略操作と敵対的攻撃のギャップを埋める。
次に、$T$が時空であり、$m$が腕の数であり、$B_{max}$が最大予算である戦略的操作の下で、少なくとも$O(m\log T + m B_{max})$の後悔を持っている組み合わせUCBアルゴリズムの戦略的な変種を提案します。
さらに、攻撃者がバンディットアルゴリズムの特定の後悔を引き起こすための戦略予算の低い境界を提供します。
広範な実験は、様々な操作予算の体制において、堅牢性と後悔の境界に関する理論的発見と相関する。
関連論文リスト
- Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Multi-armed Bandit Algorithm against Strategic Replication [5.235979896921492]
我々は,各エージェントが一組のアームを登録する多腕バンディット問題を考慮し,各エージェントがそのアームを選択すると報酬を受け取る。
エージェントは、より多くの武器を複製で戦略的に送信し、バンディットアルゴリズムの探索と探索のバランスを悪用することで、より多くの報酬をもたらす可能性がある。
本稿では,複製の復号化と,最小限の累積後悔を実現するバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-23T07:38:44Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms [10.662105162882526]
本研究は,Emphmany-armed regimeにおける$k$-armed bandit問題について考察する。
以上の結果から,多腕の環境下での強欲なアルゴリズムには,新たなエフェフリー探索法が有用であることが示唆された。
論文 参考訳(メタデータ) (2020-02-24T08:59:34Z) - Action-Manipulation Attacks Against Stochastic Bandits: Attacks and
Defense [45.408568528354216]
我々はアクション・マニピュレーション・アタックと呼ばれる新しいタイプの攻撃を導入する。
この攻撃では、相手が選択したアクション信号を変更することができる。
このような攻撃に対して防御するために,アクション操作攻撃に対して堅牢な新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-02-19T04:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。