論文の概要: Cascading Bandits Robust to Adversarial Corruptions
- arxiv url: http://arxiv.org/abs/2502.08077v1
- Date: Wed, 12 Feb 2025 02:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:47:46.678410
- Title: Cascading Bandits Robust to Adversarial Corruptions
- Title(参考訳): カスケード・バンドは逆境の崩壊にロバスト
- Authors: Jize Xie, Cheng Chen, Zhiyong Wang, Shuai Li,
- Abstract要約: カスケード包帯における敵の汚職に対する抵抗の仕方について検討する。
どちらのアルゴリズムも攻撃を受けていない場合の対数的後悔を実現することができることを示す。
- 参考スコア(独自算出の注目度): 15.150320217724571
- License:
- Abstract: Online learning to rank sequentially recommends a small list of items to users from a large candidate set and receives the users' click feedback. In many real-world scenarios, users browse the recommended list in order and click the first attractive item without checking the rest. Such behaviors are usually formulated as the cascade model. Many recent works study algorithms for cascading bandits, an online learning to rank framework in the cascade model. However, the performance of existing methods may drop significantly if part of the user feedback is adversarially corrupted (e.g., click fraud). In this work, we study how to resist adversarial corruptions in cascading bandits. We first formulate the ``\textit{Cascading Bandits with Adversarial Corruptions}" (CBAC) problem, which assumes that there is an adaptive adversary that may manipulate the user feedback. Then we propose two robust algorithms for this problem, which assume the corruption level is known and agnostic, respectively. We show that both algorithms can achieve logarithmic regret when the algorithm is not under attack, and the regret increases linearly with the corruption level. The experimental results also verify the robustness of our methods.
- Abstract(参考訳): ランク付けするオンライン学習は、大きな候補セットからユーザに少数の項目のリストを推薦し、ユーザのクリックフィードバックを受け取る。
多くの現実のシナリオでは、ユーザーは推奨リストを順に閲覧し、残りをチェックせずに最初の魅力的なアイテムをクリックします。
このような挙動は通常カスケードモデルとして定式化される。
最近の多くの研究はカスケードモデルのフレームワークをランク付けするためのオンライン学習であるカスケードブレイディットのアルゴリズムを研究している。
しかし、ユーザフィードバックの一部が逆に破損した場合(例えば、クリック詐欺)、既存のメソッドのパフォーマンスは大幅に低下する可能性がある。
本研究では,カスケードバンディットにおける敵対的腐敗に対して抵抗する方法について検討する。
まず, ユーザのフィードバックを操作できる適応的敵が存在することを前提として, 『 `\textit{Cascading Bandits with Adversarial Corruptions}』 (CBAC) 問題を定式化する。
次に,この問題に対する2つの頑健なアルゴリズムを提案する。
両アルゴリズムが攻撃を受けていない場合に対数的後悔を達成でき、その後悔は汚職レベルとともに直線的に増加することを示す。
また,本手法のロバスト性も検証した。
関連論文リスト
- Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information [57.287431079644705]
そこで我々は,Stackelbergゲームにおけるオンライン学習の問題について,リーダーとフォロワーの列の側情報を用いて検討した。
我々は,リーダに対する学習アルゴリズムを提供し,盗聴フィードバックの下でO(T1/2)$後悔を達成する。
論文 参考訳(メタデータ) (2025-01-31T22:40:57Z) - Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling [35.54611331654877]
本稿では,不完全フィードバック(LIHF)からの学習について検討し,人間からのフィードバックから学習する際の不合理性や不完全知覚に対処する。
人類の不完全性が時間の経過とともに崩壊する証拠(つまり、人間が改善を学習する)に基づいて、我々はこの問題を包括的不完全性(concave-utility)と連続的な作用(concve-action dueling bandit)として論じるが、限定的な腐敗形態で論じる。
本稿では,この枠組みが,他の勾配型デュエルバンドアルゴリズムの汚損保証を得るためにどのように容易に適用できるかを示す。
論文 参考訳(メタデータ) (2024-05-18T07:18:43Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Online Corrupted User Detection and Regret Minimization [49.536254494829436]
現実世界のオンラインウェブシステムでは、複数のユーザがシステムに順次到着する。
乱れた行動から未知のユーザ関係を学習・活用するために,LOCUDという重要なオンライン学習問題を提案する。
我々はRCLUB-WCUの推測ユーザ関係に基づく新しいオンライン検出アルゴリズムOCCUDを考案した。
論文 参考訳(メタデータ) (2023-10-07T10:20:26Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial
Corruptions [98.75618795470524]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
我々は不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:58:58Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Improved Corruption Robust Algorithms for Episodic Reinforcement
Learning [43.279169081740726]
基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。
既存の結果と比較して、総汚職の点で厳密により良い後悔の境界を達成する新しいアルゴリズムを提案します。
その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。
論文 参考訳(メタデータ) (2021-02-13T07:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。