論文の概要: Towards User-level Private Reinforcement Learning with Human Feedback
- arxiv url: http://arxiv.org/abs/2502.17515v1
- Date: Sat, 22 Feb 2025 14:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:52.685565
- Title: Towards User-level Private Reinforcement Learning with Human Feedback
- Title(参考訳): フィードバックによるユーザレベルの私的強化学習に向けて
- Authors: Jiaming Zhang, Mingxi Lei, Meng Ding, Mengdi Li, Zihang Xiang, Difei Xu, Jinhui Xu, Di Wang,
- Abstract要約: 本研究では,ユーザレベルラベルDPをRLHFに統合した新しいフレームワークAUP-RLHFを提案する。
まず、アイテムレベルのプライバシにおいて許容可能な性能を達成できる古典的ランダム応答アルゴリズムが、ユーザレベルの設定において、最適以下の効用をもたらすことを示す。
次に、ユーザレベルラベルDP-RLHFの下位境界を確立し、AUP-RLHFアルゴリズムを開発し、ユーザレベルのプライバシを$(varepsilon, delta)$で保証し、改善された推定誤差を実現する。
- 参考スコア(独自算出の注目度): 14.736140645098745
- License:
- Abstract: Reinforcement Learning with Human Feedback (RLHF) has emerged as an influential technique, enabling the alignment of large language models (LLMs) with human preferences. Despite the promising potential of RLHF, how to protect user preference privacy has become a crucial issue. Most previous work has focused on using differential privacy (DP) to protect the privacy of individual data. However, they have concentrated primarily on item-level privacy protection and have unsatisfactory performance for user-level privacy, which is more common in RLHF. This study proposes a novel framework, AUP-RLHF, which integrates user-level label DP into RLHF. We first show that the classical random response algorithm, which achieves an acceptable performance in item-level privacy, leads to suboptimal utility when in the user-level settings. We then establish a lower bound for the user-level label DP-RLHF and develop the AUP-RLHF algorithm, which guarantees $(\varepsilon, \delta)$ user-level privacy and achieves an improved estimation error. Experimental results show that AUP-RLHF outperforms existing baseline methods in sentiment generation and summarization tasks, achieving a better privacy-utility trade-off.
- Abstract(参考訳): Reinforcement Learning with Human Feedback (RLHF) は大きな言語モデル(LLM)と人間の嗜好の整合を可能にする重要な手法である。
RLHFの有望な可能性にもかかわらず、ユーザ好みのプライバシを保護する方法が重要な問題になっている。
これまでのほとんどの研究は、個々のデータのプライバシを保護するために差分プライバシー(DP)を使用することに重点を置いてきた。
しかし、主にアイテムレベルのプライバシ保護に集中しており、RLHFよりも一般的なユーザレベルのプライバシに対して満足のいくパフォーマンスを持っている。
本研究では,ユーザレベルラベルDPをRLHFに統合した新しいフレームワークAUP-RLHFを提案する。
まず、アイテムレベルのプライバシにおいて許容可能な性能を達成できる古典的ランダム応答アルゴリズムが、ユーザレベルの設定において、最適以下の効用をもたらすことを示す。
次に、ユーザレベルラベルDP-RLHFの下位境界を確立し、AUP-RLHFアルゴリズムを開発し、ユーザレベルのプライバシを$(\varepsilon, \delta)$で保証し、改善された推定誤差を実現する。
実験の結果、AUP-RLHFは感情生成や要約タスクにおいて既存のベースライン手法よりも優れており、より優れたプライバシー利用トレードオフを実現していることがわかった。
関連論文リスト
- FedRLHF: A Convergence-Guaranteed Federated Framework for Privacy-Preserving and Personalized RLHF [46.617268518880536]
Federated Reinforcement Learning with Human Feedback (FedRLHF)は、ヒューマンフィードバックプロセスによる強化学習を分散化する新しいフレームワークである。
FedRLHFは、生データや人的フィードバックの共有を必要とせずに、複数のクライアント間で協調的なポリシー学習を可能にする。
論文 参考訳(メタデータ) (2024-12-20T03:56:31Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文 参考訳(メタデータ) (2024-03-28T06:03:47Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - ULDP-FL: Federated Learning with Across Silo User-Level Differential Privacy [19.017342515321918]
Differentially Private Federated Learning (DP-FL)は、正式なプライバシを保証するための協調的な機械学習アプローチとして注目を集めている。
Uldp-FLは,単一ユーザのデータが複数のサイロに属する可能性のあるクロスサイロFLにおいて,ユーザレベルのDPを保証するように設計された,新しいFLフレームワークである。
論文 参考訳(メタデータ) (2023-08-23T15:50:51Z) - Binary Federated Learning with Client-Level Differential Privacy [7.854806519515342]
フェデレートラーニング(Federated Learning、FL)は、プライバシ保護のための協調学習フレームワークである。
既存のFLシステムはトレーニングアルゴリズムとしてフェデレーション平均(FedAvg)を採用するのが一般的である。
差分プライバシーを保証する通信効率のよいFLトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-07T06:07:04Z) - Differentially Private Federated Learning on Heterogeneous Data [10.431137628048356]
フェデレートラーニング(Federated Learning、FL)は、大規模分散ラーニングのパラダイムである。
i)高度に異質なユーザデータからの効率的なトレーニング、(ii)参加ユーザのプライバシ保護という2つの大きな課題に直面しています。
本稿では,差分プライバシー(DP)制約を取り入れた新しいFL手法を提案する。
論文 参考訳(メタデータ) (2021-11-17T18:23:49Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。