論文の概要: On the Robustness of Epoch-Greedy in Multi-Agent Contextual Bandit
Mechanisms
- arxiv url: http://arxiv.org/abs/2307.07675v1
- Date: Sat, 15 Jul 2023 01:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 18:37:08.269061
- Title: On the Robustness of Epoch-Greedy in Multi-Agent Contextual Bandit
Mechanisms
- Title(参考訳): マルチエージェントバンド機構におけるエポックグリードのロバスト性について
- Authors: Yinglun Xu, Bhuvesh Kumar, Jacob Abernethy
- Abstract要約: 最も顕著な文脈的バンディットアルゴリズムである$epsilon$-greedyは、戦略兵器がもたらした課題に対処するために拡張可能であることを示す。
また、$epsilon$-greedyは本質的に敵対的なデータ汚職攻撃に対して堅牢であり、汚職の量とともに線形に劣化するパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient learning in multi-armed bandit mechanisms such as pay-per-click
(PPC) auctions typically involves three challenges: 1) inducing truthful
bidding behavior (incentives), 2) using personalization in the users (context),
and 3) circumventing manipulations in click patterns (corruptions). Each of
these challenges has been studied orthogonally in the literature; incentives
have been addressed by a line of work on truthful multi-armed bandit
mechanisms, context has been extensively tackled by contextual bandit
algorithms, while corruptions have been discussed via a recent line of work on
bandits with adversarial corruptions. Since these challenges co-exist, it is
important to understand the robustness of each of these approaches in
addressing the other challenges, provide algorithms that can handle all
simultaneously, and highlight inherent limitations in this combination. In this
work, we show that the most prominent contextual bandit algorithm,
$\epsilon$-greedy can be extended to handle the challenges introduced by
strategic arms in the contextual multi-arm bandit mechanism setting. We further
show that $\epsilon$-greedy is inherently robust to adversarial data corruption
attacks and achieves performance that degrades linearly with the amount of
corruption.
- Abstract(参考訳): ペイ・パー・クリック(PPC)オークションのようなマルチアームバンディット・メカニズムの効率的な学習には3つの課題がある。
1)真理的な入札行動(インセンティブ)を誘発する
2)ユーザ(コンテキスト)におけるパーソナライズの使用,及び
3)クリックパターン(破損)の操作を回避する。
これらの課題はいずれも文学において直交的に研究されており、インセンティブは真理的な複数腕のバンディット機構に関する一連の研究によって対処され、コンテキストは文脈的バンディットアルゴリズムによって広範囲に取り組まれている。
これらの課題は共存しているため、他の課題に対処する上でそれぞれのアプローチの堅牢性を理解し、同時に処理可能なアルゴリズムを提供し、この組み合わせに固有の制限を強調することが重要である。
本研究では,最も顕著な文脈的バンディットアルゴリズムである$\epsilon$-greedyが,文脈的マルチアームバンディット機構の設定において戦略的アームがもたらした課題に対処するために拡張可能であることを示す。
さらに,$\epsilon$-greedy は対向的データ汚職攻撃に対して本質的に頑健であり,汚職の量で線形に劣化する性能を達成することを示した。
関連論文リスト
- Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - AutoFraudNet: A Multimodal Network to Detect Fraud in the Auto Insurance
Industry [3.871148938060281]
保険請求には、通常、さまざまなモダリティのデータが多用される。
近年のマルチモーダル学習の進歩にもかかわらず、これらのフレームワークはいまだに共同学習の課題に悩まされている。
本稿では,不正な自動保険請求を検出するためのマルチモーダル推論フレームワークAutoFraudNetを紹介する。
論文 参考訳(メタデータ) (2023-01-15T13:50:32Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - On Optimal Robustness to Adversarial Corruption in Online Decision
Problems [27.68461396741871]
最適ロバスト性は汚損量に対する平方根依存性によって表現できることを示す。
多武装バンディット問題に対しては、対数係数までほぼ狭い下界も提供する。
論文 参考訳(メタデータ) (2021-09-22T18:26:45Z) - Differentially-Private Federated Linear Bandits [15.609414012418043]
scFedUCBは、集中型と分散化された(ピアツーピア)フェデレーションラーニングのためのマルチエージェントプライベートアルゴリズムである。
我々は、その実用性に関する厳密な技術的分析を後悔の観点から提供し、協調的盗賊学習のいくつかの結果を改善し、厳密なプライバシー保証も提供します。
論文 参考訳(メタデータ) (2020-10-22T03:58:39Z) - Unifying Clustered and Non-stationary Bandits [50.12992652938055]
非定常的盗賊とオンラインの盗賊のクラスタリングは、文脈的盗賊の制約的な仮定を解き放つ。
本研究では,非定常帯域に対する変化検出と,オンライン帯域クラスタリングのためのクラスタ識別をシームレスに行う均質性試験を提案する。
厳密な後悔分析と広範な経験的評価により,提案手法の価値が示された。
論文 参考訳(メタデータ) (2020-09-05T04:58:06Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。