論文の概要: Differentially Private Reward Estimation with Preference Feedback
- arxiv url: http://arxiv.org/abs/2310.19733v1
- Date: Mon, 30 Oct 2023 16:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:07:37.401030
- Title: Differentially Private Reward Estimation with Preference Feedback
- Title(参考訳): 選好フィードバックを用いた個人差分回帰推定
- Authors: Sayak Ray Chowdhury, Xingyu Zhou and Nagarajan Natarajan
- Abstract要約: 嗜好に基づくフィードバックから学ぶことは最近、生成モデルと人間の関心を結びつけるための有望なアプローチとして、かなりの注目を集めている。
上記のパイプラインの任意のステップにおける敵攻撃は、人間のラベルのプライベートで機密性の高い情報を明らかにする可能性がある。
我々は、各ラベルのプライバシーを保護しつつ、嗜好に基づくフィードバックからの報酬推定の問題に焦点をあてる。
- 参考スコア(独自算出の注目度): 15.943664678210146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from preference-based feedback has recently gained considerable
traction as a promising approach to align generative models with human
interests. Instead of relying on numerical rewards, the generative models are
trained using reinforcement learning with human feedback (RLHF). These
approaches first solicit feedback from human labelers typically in the form of
pairwise comparisons between two possible actions, then estimate a reward model
using these comparisons, and finally employ a policy based on the estimated
reward model. An adversarial attack in any step of the above pipeline might
reveal private and sensitive information of human labelers. In this work, we
adopt the notion of label differential privacy (DP) and focus on the problem of
reward estimation from preference-based feedback while protecting privacy of
each individual labelers. Specifically, we consider the parametric
Bradley-Terry-Luce (BTL) model for such pairwise comparison feedback involving
a latent reward parameter $\theta^* \in \mathbb{R}^d$. Within a standard
minimax estimation framework, we provide tight upper and lower bounds on the
error in estimating $\theta^*$ under both local and central models of DP. We
show, for a given privacy budget $\epsilon$ and number of samples $n$, that the
additional cost to ensure label-DP under local model is $\Theta \big(\frac{1}{
e^\epsilon-1}\sqrt{\frac{d}{n}}\big)$, while it is
$\Theta\big(\frac{\text{poly}(d)}{\epsilon n} \big)$ under the weaker central
model. We perform simulations on synthetic data that corroborate these
theoretical results.
- Abstract(参考訳): 嗜好に基づくフィードバックから学ぶことは最近、生成モデルと人間の関心を結びつけるための有望なアプローチとして、かなりの注目を集めている。
数値的な報酬に頼る代わりに、生成モデルは人間フィードバックによる強化学習(RLHF)を用いて訓練される。
これらのアプローチは、まず2つの可能なアクションをペアで比較し、次にこれらの比較を使って報酬モデルを推定し、最終的に推定報酬モデルに基づくポリシーを採用する。
上記のパイプラインの任意のステップにおける敵攻撃は、人間のラベルのプライベートで機密性の高い情報を明らかにする可能性がある。
本研究では,ラベル差分プライバシ(DP)の概念を採用し,各ラベルのプライバシを保護しつつ,嗜好に基づくフィードバックからの報酬推定の問題に焦点をあてる。
具体的には、遅延報酬パラメータ $\theta^* \in \mathbb{R}^d$ を含むペア比較フィードバックに対するパラメトリックBradley-Terry-Luce(BTL)モデルを考える。
標準 minimax 推定フレームワークでは、dp の局所モデルと中央モデルの両方の下で $\theta^*$ を推定する際の誤差の上限を上下に厳密に設定する。
特定のプライバシー予算に対して、$\epsilon$と$n$のサンプルに対して、ローカルモデルの下でラベルDPを保証するための追加コストは、$\Theta \big(\frac{1}{e^\epsilon-1}\sqrt{\frac{d}{n}}\big)$であり、$\Theta\big(\frac{\text{poly}(d)}{\epsilon n} \big)$である。
これらの理論結果を裏付ける合成データのシミュレーションを行う。
関連論文リスト
- Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Random pairing MLE for estimation of item parameters in Rasch model [22.32547146723177]
ラッシュモデル(Rasch model)は、個人の潜伏特性と二分反応の関係をモデル化するために心理学において広く用いられている。
我々は、ラッシュモデルにおける項目パラメータを忠実に推定する新しい可能性に基づく推定器を導入する。
シミュレーションデータと実データを用いた2つの新しい推定器の有効性の実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-06-20T04:32:34Z) - Federated Learning with Differential Privacy for End-to-End Speech
Recognition [41.53948098243563]
フェデレートラーニング(FL)は、機械学習モデルをトレーニングするための有望なアプローチとして登場した。
自動音声認識(ASR)のための差分プライバシー(DP)をFLに適用する。
ユーザレベル(7.2$, 10-9$)-$textbfDP$(resp.$4.5$, 10-9$)-$textbfDP$(resp.$4.5$, 10-9$)-$textbfDP$は1.3%(resp.4.6%)で、ASRのDPを持つ$textbfFLの高(resp.low)集団スケールに対する外挿のための単語エラー率を絶対的に低下させる。
論文 参考訳(メタデータ) (2023-09-29T19:11:49Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Uncertainty Quantification of MLE for Entity Ranking with Covariates [3.2839905453386162]
本稿では,ペア比較に基づくランキング問題の統計的推定と推定について検討する。
我々は、有名なBradley-Terry-Luceモデルを拡張した新しいモデルCAREモデルを提案する。
我々は、スパース比較グラフの下で、$alpha_i*_i=1n$と$beta*$の最大確率推定器を導出する。
大規模数値研究による理論結果の検証と相互資金保有データセットへの適用について検討する。
論文 参考訳(メタデータ) (2022-12-20T02:28:27Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Analyzing Privacy Leakage in Machine Learning via Multiple Hypothesis
Testing: A Lesson From Fano [83.5933307263932]
本研究では,離散データに対するデータ再構成攻撃について検討し,仮説テストの枠組みの下で解析する。
基礎となるプライベートデータが$M$のセットから値を取ると、ターゲットのプライバシパラメータ$epsilon$が$O(log M)$になる。
論文 参考訳(メタデータ) (2022-10-24T23:50:12Z) - Bayesian Estimation of Differential Privacy [0.0]
Differentially Private SGDは、正式なプライバシ保証を備えた機械学習モデルのトレーニングを可能にする。
このようなアルゴリズムが理論的に保証する保護と、実際に得られる保護との間には相違点がある。
本稿では,プライバシ予算の信頼区間として,差分プライベートトレーニングによって得られる保護を実証的に評価する。
論文 参考訳(メタデータ) (2022-06-10T15:57:18Z) - On the Intrinsic Differential Privacy of Bagging [69.70602220716718]
我々は、Bagingが、同じプライバシー予算を持つ最先端の差分プライベート機械学習手法よりも、はるかに高い精度を達成することを示す。
実験結果から,Bagingは,同一のプライバシー予算を持つ最先端の差分プライベート機械学習手法よりも格段に高い精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-08-22T14:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。