論文の概要: Attack-Resistant Uniform Fairness for Linear and Smooth Contextual Bandits
- arxiv url: http://arxiv.org/abs/2602.04125v1
- Date: Wed, 04 Feb 2026 01:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.334673
- Title: Attack-Resistant Uniform Fairness for Linear and Smooth Contextual Bandits
- Title(参考訳): 線形・平滑な帯域に対する攻撃耐性の一様公正性
- Authors: Qingwen Zhang, Wenjia Wang,
- Abstract要約: 我々は,線形および滑らかな報酬関数に対して,最小限の後悔を解く新しいアルゴリズムを開発した。
最小限の$tildeO(1)の予算を持つ敵は、従来の攻撃のように全体的な性能を低下させるだけでなく、悪質なフェアネス固有の障害を選択的に誘発できることを示す。
- 参考スコア(独自算出の注目度): 21.090584232258056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern systems, such as digital platforms and service systems, increasingly rely on contextual bandits for online decision-making; however, their deployment can inadvertently create unfair exposure among arms, undermining long-term platform sustainability and supplier trust. This paper studies the contextual bandit problem under a uniform $(1-δ)$-fairness constraint, and addresses its unique vulnerabilities to strategic manipulation. The fairness constraint ensures that preferential treatment is strictly justified by an arm's actual reward across all contexts and time horizons, using uniformity to prevent statistical loopholes. We develop novel algorithms that achieve (nearly) minimax-optimal regret for both linear and smooth reward functions, while maintaining strong $(1-\tilde{O}(1/T))$-fairness guarantees, and further characterize the theoretically inherent yet asymptotically marginal "price of fairness". However, we reveal that such merit-based fairness becomes uniquely susceptible to signal manipulation. We show that an adversary with a minimal $\tilde{O}(1)$ budget can not only degrade overall performance as in traditional attacks, but also selectively induce insidious fairness-specific failures while leaving conspicuous regret measures largely unaffected. To counter this, we design robust variants incorporating corruption-adaptive exploration and error-compensated thresholding. Our approach yields the first minimax-optimal regret bounds under $C$-budgeted attack while preserving $(1-\tilde{O}(1/T))$-fairness. Numerical experiments and a real-world case demonstrate that our algorithms sustain both fairness and efficiency.
- Abstract(参考訳): デジタルプラットフォームやサービスシステムのような現代のシステムは、オンライン意思決定の文脈的盗聴にますます頼っているが、彼らの展開は必然的に武器間の不当な露出を生じさせ、長期的なプラットフォームの持続可能性やサプライヤの信頼を損なう可能性がある。
本稿では,一様$(1-δ)$-fairness制約の下でのコンテキスト的帯域幅問題について検討し,その特異な脆弱性を戦略的操作に対処する。
公平性制約は、あらゆる状況と時間的地平線をまたいだ腕の実際の報酬によって、統計的抜け穴を防ぐための一様性を用いて、優先的な治療が厳密に正当化されることを保証する。
1-\tilde{O}(1/T))$-fairnessの保証を維持しつつ、線形および滑らかな報酬関数の両方に対して(ほぼ)ミニマックス最適後悔を達成する新しいアルゴリズムを開発し、さらに理論上固有のが漸近的に辺縁的な「公正の値」を特徴づける。
しかし,このような長所に基づく公平さは信号操作の影響を受けやすいことが判明した。
最小限の$\tilde{O}(1)$の予算を持つ敵は、従来の攻撃のように全体的な性能を低下させるだけでなく、不利な公平性固有の失敗を選択的に誘発すると同時に、目立たしい後悔対策がほとんど影響しないことを示す。
これに対応するために、汚職適応探索と誤り補償しきい値処理を組み込んだ頑健な変種を設計する。
提案手法は,1-\tilde{O}(1/T)$-fairness を保ちながら,$C$-budgeted 攻撃下での最初のminimax-optimal regret 境界が得られる。
数値実験と実世界のケースは、我々のアルゴリズムが公平性と効率の両方を維持していることを示している。
関連論文リスト
- A Flexible Fairness Framework with Surrogate Loss Reweighting for Addressing Sociodemographic Disparities [2.057770398219001]
本稿では,新たなアルゴリズムフレームワークである $boldsymbolalpha$boldbeta$ Fair Machine Learning (symbolalphasymbolbetabeta$ FML)を提案する。
我々のフレームワークでは、新しいサロゲート損失最小化を採用し、損失再重み付けと組み合わせることで、調整可能な属性による正確なトレードオフを可能にする。
論文 参考訳(メタデータ) (2025-03-21T04:10:14Z) - Consistent End-to-End Estimation for Counterfactual Fairness [56.9060492313073]
本稿では, 対実フェアネスの予測を行うための新しい対実フェアネス予測器を提案する。
我々は,本手法が対実公正性の概念を確実にするのに有効であることを理論的に保証する。
論文 参考訳(メタデータ) (2023-10-26T17:58:39Z) - On the Vulnerability of Fairness Constrained Learning to Malicious Noise [28.176039923404883]
トレーニングデータにおいて、公平性に制約された学習の脆弱性を少数の悪意のある雑音に対して考慮する。
例えば、Demographic Parityでは、$Theta(alpha)$の精度損失しか発生せず、$alpha$は悪意のあるノイズレートであることを示す。
Equal Opportunity に対して、$O(sqrtalpha)$損失を発生させ、一致する$Omega(sqrtalpha)$ lower bound を与える。
論文 参考訳(メタデータ) (2023-07-21T20:26:54Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - A Regret bound for Non-stationary Multi-Armed Bandits with Fairness
Constraints [7.716156977428555]
我々は,緩やかに変化する$k$-armed bandit問題を解くために,fair upper confidenceと呼ばれる新しいアルゴリズムとexploring fair-ucbeを提案する。
非定常ケースにおけるアルゴリズムの性能は,その定常ケースに近づくとゼロになりがちであることを示す。
論文 参考訳(メタデータ) (2020-12-24T18:12:01Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。