論文の概要: DP-NCB: Privacy Preserving Fair Bandits
- arxiv url: http://arxiv.org/abs/2508.03836v1
- Date: Tue, 05 Aug 2025 18:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.415992
- Title: DP-NCB: Privacy Preserving Fair Bandits
- Title(参考訳): DP-NCB: 公正な帯域を保存するプライバシー保護
- Authors: Dhruv Sarkar, Nishant Pandey, Sayak Ray Chowdhury,
- Abstract要約: そこで我々は,DP-NCB(Disfferially Private Nash Confidence Bound)という新しいアルゴリズムフレームワークを紹介した。
同時に$epsilon$-differentialのプライバシを保証し、既知の下位境界を対数的要素まで一致させて、オーダー最適化のNash後悔を実現する。
われわれの結果は、プライバシー保護と公正の両方を兼ね備えた帯域幅アルゴリズムを設計するための原則的な基盤を提供する。
- 参考スコア(独自算出の注目度): 7.443474354626665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-armed bandit algorithms are fundamental tools for sequential decision-making under uncertainty, with widespread applications across domains such as clinical trials and personalized decision-making. As bandit algorithms are increasingly deployed in these socially sensitive settings, it becomes critical to protect user data privacy and ensure fair treatment across decision rounds. While prior work has independently addressed privacy and fairness in bandit settings, the question of whether both objectives can be achieved simultaneously has remained largely open. Existing privacy-preserving bandit algorithms typically optimize average regret, a utilitarian measure, whereas fairness-aware approaches focus on minimizing Nash regret, which penalizes inequitable reward distributions, but often disregard privacy concerns. To bridge this gap, we introduce Differentially Private Nash Confidence Bound (DP-NCB)-a novel and unified algorithmic framework that simultaneously ensures $\epsilon$-differential privacy and achieves order-optimal Nash regret, matching known lower bounds up to logarithmic factors. The framework is sufficiently general to operate under both global and local differential privacy models, and is anytime, requiring no prior knowledge of the time horizon. We support our theoretical guarantees with simulations on synthetic bandit instances, showing that DP-NCB incurs substantially lower Nash regret than state-of-the-art baselines. Our results offer a principled foundation for designing bandit algorithms that are both privacy-preserving and fair, making them suitable for high-stakes, socially impactful applications.
- Abstract(参考訳): マルチアームバンディットアルゴリズムは、不確実性の下でのシーケンシャルな意思決定のための基本的なツールであり、臨床試験やパーソナライズされた意思決定などの領域に広く適用されている。
帯域幅のアルゴリズムが社会的に敏感な設定にますます導入されるにつれて、ユーザのデータのプライバシーを保護し、意思決定ラウンド全体で公平な扱いを確保することが重要になる。
以前の作業は、バンディット設定におけるプライバシーと公正性に独立して対処してきたが、両方の目的を同時に達成できるかどうかという問題は、ほとんど未解決のままである。
既存のプライバシー保護バンディットアルゴリズムは平均的後悔を最適化するが、公正を意識したアプローチは、不公平な報酬分布を罰するが、プライバシーの懸念を無視することが多いナッシュの後悔を最小化することに焦点を当てている。
このギャップを埋めるために,我々はDP-NCB(Disfferially Private Nash Confidence Bound)という,$\epsilon$-differential Privacyを同時に保証し,オーダー最適のNash後悔を実現する新しい,統一されたアルゴリズムフレームワークを導入する。
このフレームワークは、グローバルおよびローカルの差分プライバシーモデルの両方の下で運用するのに十分な一般性があり、いつでも時間軸に関する事前の知識を必要としない。
我々は,DP-NCBが最先端のベースラインよりもナッシュの後悔を著しく低下させることを示すため,合成バンディットインスタンスのシミュレーションによる理論的保証を支持した。
われわれの結果は、プライバシー保護と公正の両方を兼ね備えた帯域幅アルゴリズムを設計するための原則的な基盤を提供する。
関連論文リスト
- Locally Differentially Private Thresholding Bandits [3.8916312075738273]
本研究は,閾値帯域問題における局所的差分プライバシーの確保が与える影響について検討する。
本研究では,ベルヌーイをベースとした微分プライベート機構を用いて,予め定義された閾値を超える報酬を期待する武器を識別する手法を提案する。
論文 参考訳(メタデータ) (2025-07-30T20:08:30Z) - Breaking the Gaussian Barrier: Residual-PAC Privacy for Automatic Privatization [25.387857775660855]
本稿では,逆推定後に残るプライバシを定量化する f-divergence ベースの尺度である Residual PAC Privacy を紹介する。
また,最適な雑音分布を選択するゲーム理論であるRPACプライバシーのための,Stackelberg Residual-PAC(SR-PAC)の民営化機構を提案する。
論文 参考訳(メタデータ) (2025-06-06T20:52:47Z) - KL-regularization Itself is Differentially Private in Bandits and RLHF [19.463863037999054]
差分プライバシー(DP)は、プライバシーのための厳格なフレームワークを提供し、単一のエントリで異なるデータセット間で統計的に区別できないデータ駆動アルゴリズムの出力を保証する。
「一般に、DPを保証するためには、アルゴリズム自体または出力に明示的にノイズを注入する必要があるが、既存のアルゴリズムの固有のランダム性は、DPを無償で達成する機会を与える。」
論文 参考訳(メタデータ) (2025-05-23T22:22:02Z) - Convergent Differential Privacy Analysis for General Federated Learning: the $f$-DP Perspective [57.35402286842029]
フェデレートラーニング(Federated Learning, FL)は、ローカルプライバシを重視した効率的な協調トレーニングパラダイムである。
ディファレンシャルプライバシ(DP)は、私的保護の信頼性を捕捉し、保証するための古典的なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:22:21Z) - TernaryVote: Differentially Private, Communication Efficient, and
Byzantine Resilient Distributed Optimization on Heterogeneous Data [50.797729676285876]
本稿では, 3次圧縮機と多数決機構を組み合わせて, 差分プライバシー, 勾配圧縮, ビザンチンレジリエンスを同時に実現するternaryVoteを提案する。
提案アルゴリズムのF差分プライバシー(DP)とビザンチンレジリエンスのレンズによるプライバシー保証を理論的に定量化する。
論文 参考訳(メタデータ) (2024-02-16T16:41:14Z) - Concentrated Differential Privacy for Bandits [11.086440815804227]
本稿では,信頼性の高い集中型意思決定者による盗賊の識別プライバシー(DP)の理解に寄与する。
本稿では,AdaC-UCB,AdaC-GOPE,AdaC-OFULの3つのプライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-01T16:08:00Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - Differentially Private Stochastic Gradient Descent with Low-Noise [49.981789906200035]
現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目的としており、プライバシー保護の目標と矛盾することが多い。
本稿では、プライバシを保ちながら優れたパフォーマンスを確保するために、プライバシを保存する機械学習アルゴリズムを開発することの実践的および理論的重要性について論じる。
論文 参考訳(メタデータ) (2022-09-09T08:54:13Z) - Decentralized Stochastic Optimization with Inherent Privacy Protection [103.62463469366557]
分散最適化は、現代の協調機械学習、分散推定と制御、大規模センシングの基本的な構成要素である。
データが関与して以降、分散最適化アルゴリズムの実装において、プライバシ保護がますます重要になっている。
論文 参考訳(メタデータ) (2022-05-08T14:38:23Z) - Privacy Amplification via Shuffling for Linear Contextual Bandits [51.94904361874446]
ディファレンシャルプライバシ(DP)を用いた文脈線形バンディット問題について検討する。
プライバシのシャッフルモデルを利用して,JDP と LDP のプライバシ/ユーティリティトレードオフを実現することができることを示す。
以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T15:23:28Z) - Generalized Linear Bandits with Local Differential Privacy [4.922800530841394]
パーソナライズドメディカルやオンライン広告などの多くのアプリケーションは、効果的な学習のために個人固有の情報を活用する必要がある。
これは、局所微分プライバシー(LDP)というプライバシーの厳格な概念を文脈的盗賊に導入する動機となっている。
本稿では,一般線形バンドレットに対するLDPアルゴリズムを設計し,非プライバシ設定と同じ後悔点を実現する。
論文 参考訳(メタデータ) (2021-06-07T06:42:00Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。