論文の概要: PROPS: Progressively Private Self-alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2508.06783v1
- Date: Sat, 09 Aug 2025 02:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.546063
- Title: PROPS: Progressively Private Self-alignment of Large Language Models
- Title(参考訳): PROPS: 大規模言語モデルのプログレッシブな自己アライメント
- Authors: Noel Teku, Fengwei Tian, Payel Bhattacharjee, Souradip Chakraborty, Amrit Singh Bedi, Ravi Tandon,
- Abstract要約: この研究は、優先順位レベルのプライバシとLLM(Large Language Models)の整合性に焦点を当てている。
本稿では,多段階のプライバシ保護アライメントフレームワークであるPROPS(PROgressively Private Self-alignment)を提案する。
同じプライバシー予算では、PROPSによるアライメントはDP-SGDに比べて最大3倍、Randomized Response (RR)ベースのアライメントに比べて2.5倍高いアライメントを達成することができる。
- 参考スコア(独自算出の注目度): 16.049154157152177
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Alignment is a key step in developing Large Language Models (LLMs) using human feedback to ensure adherence to human values and societal norms. Dependence on human feedback raises privacy concerns about how much a labeler's preferences may reveal about their personal values, beliefs, and personality traits. Existing approaches, such as Differentially Private SGD (DP-SGD), provide rigorous privacy guarantees by privatizing gradients during fine-tuning and alignment but can provide more privacy than necessary as human preferences are tied only to labels of (prompt, response) pairs and can degrade model utility. This work focuses on LLM alignment with preference-level privacy, which preserves the privacy of preference labels provided by humans. We propose PROPS (PROgressively Private Self-alignment), a multi-stage privacy preserving alignment framework where privately aligned models in previous stages can serve as labelers for supplementing training data in the subsequent stages of alignment. We present theoretical guarantees for PROPS as well as comprehensive validation using multiple models (Pythia and GPT) and datasets (AlpacaEval, Anthropic HH-RLHF, truthy-dpo-v0.1) to demonstrate the utility of PROPS over existing methods while still providing high privacy. For the same privacy budget, alignment via PROPS can achieve up to 3x higher win-rates compared to DP-SGD, and 2.5x higher win-rates compared to Randomized Response (RR) based alignment.
- Abstract(参考訳): アライメントは、人間の価値観や社会的規範に固執することを保証するために、人間のフィードバックを使って大規模言語モデル(LLM)を開発するための重要なステップである。
人間のフィードバックへの依存は、ラベルの好みが個人の価値観、信念、性格の特徴をどの程度明らかにするかというプライバシー上の懸念を提起する。
Differentially Private SGD (DP-SGD) のような既存のアプローチでは、微調整とアライメントの間、勾配を民営化することで厳格なプライバシー保証を提供するが、人間の好みは(プロンプト、応答)ペアのラベルにのみ結び付けられ、モデルユーティリティを劣化させることができるため、必要以上にプライバシーを提供することができる。
この研究は、人間によって提供される嗜好ラベルのプライバシを保存する、嗜好レベルのプライバシとLLMの整合性に焦点を当てている。
ProPS(PROgressively Private Self-alignment)は,複数段階のプライバシ保護アライメントフレームワークである。
本稿では,複数のモデル (Pythia と GPT) とデータセット (AlpacaEval, Anthropic HH-RLHF, truthy-dpo-v0.1) による ProPS の理論的保証と包括的検証について述べる。
同じプライバシー予算では、PROPSによるアライメントはDP-SGDに比べて最大3倍、Randomized Response (RR)ベースのアライメントに比べて2.5倍高いアライメントを達成することができる。
関連論文リスト
- Machine Learning with Privacy for Protected Attributes [56.44253915927481]
差分プライバシー(DP)の定義を洗練し、機能差分プライバシー(FDP)と呼ばれるより汎用的で柔軟なフレームワークを作成する。
私たちの定義はシミュレーションに基づいており、プライバシの追加/削除と置き換えの両方が可能で、保護された機能と非保護された機能の任意の分離を処理できます。
各種機械学習タスクにフレームワークを適用し,パブリック機能が利用可能であればDP学習モデルの実用性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-06-24T17:53:28Z) - Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Personalized Differential Privacy for Ridge Regression [3.4751583941317166]
我々はPDP-OP(Personalized-DP Output Perturbation Method)を導入し、データポイントごとのプライバシレベルに応じてリッジ回帰モデルのトレーニングを可能にする。
我々は、PDP-OPの厳密なプライバシー証明と、結果モデルの正確性を保証する。
我々はPDP-OPがJorgensenらのパーソナライズされたプライバシー技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-30T16:00:14Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - PAC Privacy Preserving Diffusion Models [6.299952353968428]
拡散モデルは、高いプライバシーと視覚的品質の両方で画像を生成することができる。
しかし、特定のデータ属性の民営化において堅牢な保護を確保するといった課題が発生する。
PACプライバシー保護拡散モデル(PAC Privacy Preserving Diffusion Model)を導入する。
論文 参考訳(メタデータ) (2023-12-02T18:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。