論文の概要: Online Learning to Rank under Corruption: A Robust Cascading Bandits Approach
- arxiv url: http://arxiv.org/abs/2511.03074v1
- Date: Tue, 04 Nov 2025 23:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.274225
- Title: Online Learning to Rank under Corruption: A Robust Cascading Bandits Approach
- Title(参考訳): 破産下でランク付けするオンライン学習:ロバストなカスケードバンドアプローチ
- Authors: Fatemeh Ghaffari, Siddarth Sitaraman, Xutong Liu, Xuchuang Wang, Mohammad Hajiesmaili,
- Abstract要約: オンライン学習は、大きなプールからランクの低い項目のリストを推薦する方法を研究し、ユーザークリックに基づいて将来のランキングを改善する。
この設定は一般的にカスケードバンドとしてモデル化され、ユーザが提示されたアイテムの少なくとも1つをクリックする可能性の最大化を目的としている。
そこで我々は,新しい医療平均推定器を組み込んだ頑健なアルゴリズムMSUCBを提案する。
- 参考スコア(独自算出の注目度): 15.847551488328866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online learning to rank (OLTR) studies how to recommend a short ranked list of items from a large pool and improves future rankings based on user clicks. This setting is commonly modeled as cascading bandits, where the objective is to maximize the likelihood that the user clicks on at least one of the presented items across as many timesteps as possible. However, such systems are vulnerable to click fraud and other manipulations (i.e., corruption), where bots or paid click farms inject corrupted feedback that misleads the learning process and degrades user experience. In this paper, we propose MSUCB, a robust algorithm that incorporates a novel mean-of-medians estimator, which to our knowledge is applied to bandits with corruption setting for the first time. This estimator behaves like a standard mean in the absence of corruption, so no cost is paid for robustness. Under corruption, the median step filters out outliers and corrupted samples, keeping the estimate close to its true value. Updating this estimate at every round further accelerates empirical convergence in experiments. Hence, MSUCB achieves optimal logarithmic regret in the absence of corruption and degrades gracefully under corruptions, with regret increasing only by an additive term tied to the total corruption. Comprehensive and extensive experiments on real-world datasets further demonstrate that our approach consistently outperforms prior methods while maintaining strong robustness. In particular, it achieves a \(97.35\%\) and a \(91.60\%\) regret improvement over two state-of-the-art methods.
- Abstract(参考訳): オンライン学習ランキング(OLTR)は、大きなプールからランクの低い項目のリストを推薦する方法を研究し、ユーザークリックに基づいて将来のランキングを改善する。
この設定は一般的にカスケードバンドとしてモデル化され、ユーザが提示されたアイテムの少なくとも1つを可能な限り多くのタイムステップでクリックする確率を最大化することを目的としている。
ボットや有償クリックファームが不正なフィードバックを注入し、学習過程を誤解させ、ユーザー体験を劣化させる。
本稿では,医用平均推定器を組み込んだ頑健なアルゴリズムであるMSUCBを提案する。
この推定器は腐敗のない場合、標準的な平均値のように振る舞うので、堅牢性のために費用が支払われることはない。
汚職の下では、中央値のステップがオフレーヤをフィルタリングし、サンプルを破損させ、見積もりはその真の値に近づいたままにする。
この推定を各ラウンドで更新することは、実験における経験的収束をさらに加速させる。
したがって、MSUCBは、腐敗の欠如において最適な対数的後悔を達成し、汚職の下で優雅に悪化する。
実世界のデータセットに関する包括的で広範な実験は、我々のアプローチが強い堅牢性を維持しながら、従来手法よりも一貫して優れていることをさらに証明している。
特に、2つの最先端手法に対して、(97.35\%\)と(91.60\%\)の後悔の改善を達成する。
関連論文リスト
- Cascading Bandits Robust to Adversarial Corruptions [15.150320217724571]
カスケード包帯における敵の汚職に対する抵抗の仕方について検討する。
どちらのアルゴリズムも攻撃を受けていない場合の対数的後悔を実現することができることを示す。
論文 参考訳(メタデータ) (2025-02-12T02:44:41Z) - Corruption-Robust Linear Bandits: Minimax Optimality and Gap-Dependent Misspecification [17.288347876319126]
線形バンディットでは、学習者が腐敗した報酬に直面するとき、効果的に学習できるのか?
汚職レベルは学習者が選択した行動に依存するが、汚職レベルは学習者が選択した行動に依存しない。
線形包帯については, 強い汚職と弱い汚職下でのミニマックス後悔のギャップを, 完全に特徴づける。
論文 参考訳(メタデータ) (2024-10-10T02:01:46Z) - Enhancing Infrared Small Target Detection Robustness with Bi-Level
Adversarial Framework [61.34862133870934]
本稿では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対向的枠組みを提案する。
我々の手法は広範囲の汚職で21.96%のIOUを著しく改善し、特に一般ベンチマークで4.97%のIOUを推進している。
論文 参考訳(メタデータ) (2023-09-03T06:35:07Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Soft Diffusion: Score Matching for General Corruptions [84.26037497404195]
我々は,任意の線形汚職過程のスコア関数を確実に学習するSoft Score Matchingと呼ばれる新しい目的を提案する。
本研究の目的は, 汚職過程の家族に対して, 適正な規則性条件下での確率の勾配を学習することである。
提案手法はCelebA-64上でのFIDスコアを1.85ドルで達成し,従来の線形拡散モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-12T17:45:03Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - DeepMoM: Robust Deep Learning With Median-of-Means [0.3553493344868413]
我々は,中道値とル・カムの原理に関する最近の知見に動機づけられたアプローチを導入する。
このアプローチが容易に実装できることを示し、実際に非常にうまく機能していることを示します。
論文 参考訳(メタデータ) (2021-05-28T18:07:32Z) - On the effectiveness of adversarial training against common corruptions [29.596070201105277]
敵の訓練は、共通の腐敗に対する強力なベースラインとなり得ることを実証する。
提案手法は,$ell_p$ の学習ベースラインを改良するだけでなく,データ拡張法で累積的に向上することを示す。
論文 参考訳(メタデータ) (2021-03-03T11:04:09Z) - Improved Corruption Robust Algorithms for Episodic Reinforcement
Learning [43.279169081740726]
基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。
既存の結果と比較して、総汚職の点で厳密により良い後悔の境界を達成する新しいアルゴリズムを提案します。
その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。
論文 参考訳(メタデータ) (2021-02-13T07:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。