論文の概要: Locally Private Nonparametric Contextual Multi-armed Bandits
- arxiv url: http://arxiv.org/abs/2503.08098v2
- Date: Tue, 25 Mar 2025 16:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:04.780806
- Title: Locally Private Nonparametric Contextual Multi-armed Bandits
- Title(参考訳): 局所的非パラメトリックなマルチアームバンド
- Authors: Yuheng Ma, Feiyu Jiang, Zifeng Zhao, Hanfang Yang, Yi Yu,
- Abstract要約: ローカルディファレンシャルプライバシ(LDP)の下での非パラメトリックコンテキスト多重武装バンディット(MAB)の課題に対処する。
一致したミニマックス下界で支持されるミニマックス最適性を示す一様信頼束縛型推定器を開発した。
- 参考スコア(独自算出の注目度): 10.579415536953132
- License:
- Abstract: Motivated by privacy concerns in sequential decision-making on sensitive data, we address the challenge of nonparametric contextual multi-armed bandits (MAB) under local differential privacy (LDP). We develop a uniform-confidence-bound-type estimator, showing its minimax optimality supported by a matching minimax lower bound. We further consider the case where auxiliary datasets are available, subject also to (possibly heterogeneous) LDP constraints. Under the widely-used covariate shift framework, we propose a jump-start scheme to effectively utilize the auxiliary data, the minimax optimality of which is further established by a matching lower bound. Comprehensive experiments on both synthetic and real-world datasets validate our theoretical results and underscore the effectiveness of the proposed methods.
- Abstract(参考訳): センシティブなデータに対するシーケンシャルな意思決定におけるプライバシの懸念から、非パラメトリックな文脈的マルチアームバンディット(MAB)の局所的差分プライバシー(LDP)における課題に対処する。
一致したミニマックス下界で支持されるミニマックス最適性を示す一様信頼束縛型推定器を開発した。
さらに、補助的データセットが利用可能である場合についても、(多種多様かもしれない)LDP制約についても検討する。
広範に使われている共変量シフトフレームワークでは、補助データを効果的に活用するためのジャンプスタートスキームを提案し、その最小値最適性は、一致した下界によってさらに確立される。
合成および実世界のデータセットに関する総合的な実験は、我々の理論的結果を検証するとともに、提案手法の有効性を裏付けるものである。
関連論文リスト
- The Cost of Shuffling in Private Gradient Based Optimization [40.31928071333575]
その結果, DP-ShuffleGはDP-SGDと比較して, データのシャッフル処理により過大なリスクが生じることがわかった。
我々は、プライベートな最適化に公開データサンプルを統合するハイブリッドアプローチである textitInterleaved-ShuffleG を提案する。
論文 参考訳(メタデータ) (2025-02-05T22:30:00Z) - Minimax Optimal Two-Sample Testing under Local Differential Privacy [3.3317825075368908]
ローカルディファレンシャルプライバシ(LDP)の下でのプライベート2サンプルテストにおけるプライバシと統計ユーティリティのトレードオフについて検討する。
本稿では,Laplace,離散Laplace,GoogleのRAPPORなど,実用的なプライバシメカニズムを用いたプライベートな置換テストを紹介する。
我々は,ビンニングによる連続データの研究を行い,その一様分離率をH"olderとBesovの滑らか度クラスよりもLDPで検討した。
論文 参考訳(メタデータ) (2024-11-13T22:44:25Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - TernaryVote: Differentially Private, Communication Efficient, and
Byzantine Resilient Distributed Optimization on Heterogeneous Data [50.797729676285876]
本稿では, 3次圧縮機と多数決機構を組み合わせて, 差分プライバシー, 勾配圧縮, ビザンチンレジリエンスを同時に実現するternaryVoteを提案する。
提案アルゴリズムのF差分プライバシー(DP)とビザンチンレジリエンスのレンズによるプライバシー保証を理論的に定量化する。
論文 参考訳(メタデータ) (2024-02-16T16:41:14Z) - Optimal Locally Private Nonparametric Classification with Public Data [2.631955426232593]
本研究では,非パラメトリック分類に着目して,公共データを利用した非対話型局所微分プライベート(LDP)学習の問題点について検討する。
後方ドリフト仮定の下では, LDP制約による最小収束率を導出する。
そこで本研究では,極小最大収束率を達成できる新しい手法である局所微分プライベート分類木を提案する。
論文 参考訳(メタデータ) (2023-11-19T16:35:01Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - Score Attack: A Lower Bound Technique for Optimal Differentially Private
Learning [8.760651633031342]
本稿では,パラメータ推定の差分プライバシに制約されたミニマックスリスクを低く抑える,スコアアタックと呼ばれる新しい手法を提案する。
様々な統計問題に対する差分プライバシーを確保しながら、未知のモデルパラメータを推定する最小限のリスクを対数係数まで最適に下げることができる。
論文 参考訳(メタデータ) (2023-03-13T14:26:27Z) - Differentially Private Decentralized Optimization with Relay Communication [1.2695958417031445]
プライバシリーク頻度(PLF)は,アルゴリズムの通信とプライバシリークの関係を明らかにする指標である。
DP-RECAL は, 演算子分割法と中継通信機構を利用して, PLF の低減を図っている。
論文 参考訳(メタデータ) (2022-12-21T09:05:36Z) - Mitigating Algorithmic Bias with Limited Annotations [65.060639928772]
機密属性が公開されていない場合、バイアスを軽減するために、トレーニングデータの小さな部分を手動でアノテートする必要がある。
本稿では,アルゴリズムバイアスの影響を最大限に排除するために,限定アノテーションを誘導する対話型フレームワークであるアクティブペナライゼーション・オブ・差別(APOD)を提案する。
APODは完全なアノテートバイアス緩和と同等のパフォーマンスを示しており、機密情報が制限された場合、APODが現実世界のアプリケーションに利益をもたらすことを実証している。
論文 参考訳(メタデータ) (2022-07-20T16:31:19Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。