論文の概要: Improved Algorithms for Differentially Private Language Model Alignment
- arxiv url: http://arxiv.org/abs/2505.08849v1
- Date: Tue, 13 May 2025 16:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.260579
- Title: Improved Algorithms for Differentially Private Language Model Alignment
- Title(参考訳): 微分プライベート言語モデルアライメントのための改良アルゴリズム
- Authors: Keyu Chen, Hao Tang, Qinglin Liu, Yizhao Xu,
- Abstract要約: プライバシ保護アライメントのための新しいアルゴリズムを提案する。
私たちのフレームワークは2つの著名なアライメント技術にデプロイできます。
我々のアルゴリズムの1つであるDP-AdamWとDPOは、従来の手法を超越し、適度なプライバシー予算の下でアライメント品質を最大15%改善します。
- 参考スコア(独自算出の注目度): 12.611907955831597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model alignment is crucial for ensuring that large language models (LLMs) align with human preferences, yet it often involves sensitive user data, raising significant privacy concerns. While prior work has integrated differential privacy (DP) with alignment techniques, their performance remains limited. In this paper, we propose novel algorithms for privacy-preserving alignment and rigorously analyze their effectiveness across varying privacy budgets and models. Our framework can be deployed on two celebrated alignment techniques, namely direct preference optimization (DPO) and reinforcement learning from human feedback (RLHF). Through systematic experiments on large-scale language models, we demonstrate that our approach achieves state-of-the-art performance. Notably, one of our algorithms, DP-AdamW, combined with DPO, surpasses existing methods, improving alignment quality by up to 15% under moderate privacy budgets ({\epsilon}=2-5). We further investigate the interplay between privacy guarantees, alignment efficacy, and computational demands, providing practical guidelines for optimizing these trade-offs.
- Abstract(参考訳): 言語モデルのアライメントは、大きな言語モデル(LLM)が人間の好みと一致することを保証するために不可欠である。
以前の作業では、差分プライバシー(DP)とアライメント技術が統合されていたが、パフォーマンスは制限されている。
本稿では、プライバシ保護アライメントのための新しいアルゴリズムを提案し、その効果を様々なプライバシ予算やモデルで厳密に分析する。
我々のフレームワークは、直接選好最適化(DPO)と人間からのフィードバックからの強化学習(RLHF)という、2つの優れたアライメント技術に展開することができる。
大規模言語モデルに関する体系的な実験を通して,本手法が最先端の性能を実現することを実証する。
特に、DP-AdamWとDPOを組み合わせたアルゴリズムが既存の手法を上回り、適度なプライバシー予算({\epsilon}=2-5)の下でアライメント品質を最大15%向上させています。
さらに、プライバシ保証、アライメント有効性、計算要求の相互作用について検討し、これらのトレードオフを最適化するための実用的なガイドラインを提供する。
関連論文リスト
- Can Differentially Private Fine-tuning LLMs Protect Against Privacy Attacks? [8.189149471520542]
細調整された大規模言語モデル(LLM)は、特定のタスクに適応するための重要な戦略となっている。
差分プライバシー(DP)はそのような漏洩に対して強力な理論的保証を提供するが、LLMにおける経験的プライバシーの有効性は未だ不明である。
本稿では,DPが微調整方法やプライバシー予算に与える影響を体系的に検討する。
論文 参考訳(メタデータ) (2025-04-28T05:34:53Z) - Federated Learning with Differential Privacy: An Utility-Enhanced Approach [12.614480013684759]
フェデレーション学習は、クライアントのデータを共有する必要性をなくすことによって、データのプライバシを保護するための魅力的なアプローチとして現れている。
最近の研究では、フェデレートされた学習だけではプライバシーが保証されないことが示されている。
本稿では,これらのバニラ微分プライベートアルゴリズムを,ハールウェーブレット変換ステップとノイズの分散を著しく低減する新しいノイズ注入方式に基づいて修正する。
論文 参考訳(メタデータ) (2025-03-27T04:48:29Z) - Linear-Time User-Level DP-SCO via Robust Statistics [55.350093142673316]
ユーザレベルの差分プライベート凸最適化(DP-SCO)は、マシンラーニングアプリケーションにおけるユーザのプライバシ保護の重要性から、大きな注目を集めている。
微分プライベート勾配勾配(DP-SGD)に基づくような現在の手法は、しばしば高雑音蓄積と準最適利用に苦しむ。
これらの課題を克服するために、ロバストな統計、特に中央値とトリミング平均を利用する新しい線形時間アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-13T02:05:45Z) - PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z) - Activity Recognition on Avatar-Anonymized Datasets with Masked Differential Privacy [64.32494202656801]
プライバシを保存するコンピュータビジョンは、機械学習と人工知能において重要な問題である。
本稿では,ビデオデータセット中の感性のある被験者を文脈内の合成アバターに置き換える匿名化パイプラインを提案する。
また、匿名化されていないがプライバシーに敏感な背景情報を保護するため、MaskDPを提案する。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Differentially Private Fine-Tuning of Diffusion Models [22.454127503937883]
微分プライバシーと拡散モデル(DM)の統合は、有望だが挑戦的なフロンティアを示している。
この分野での最近の進歩は、公開データによる事前学習によって高品質な合成データを生成する可能性を強調している。
本稿では,プライバシとユーティリティのトレードオフを高めるために,トレーニング可能なパラメータの数を最小限に抑える,プライベート拡散モデルに最適化された戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:18:04Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - On the utility and protection of optimization with differential privacy
and classic regularization techniques [9.413131350284083]
本稿では,標準最適化手法に対するDP-SGDアルゴリズムの有効性について検討する。
我々は、差分プライバシーの欠陥と限界について議論し、ドロップアウトとl2-規則化のプライバシー保護特性がしばしば優れていることを実証した。
論文 参考訳(メタデータ) (2022-09-07T14:10:21Z) - Decentralized Stochastic Optimization with Inherent Privacy Protection [103.62463469366557]
分散最適化は、現代の協調機械学習、分散推定と制御、大規模センシングの基本的な構成要素である。
データが関与して以降、分散最適化アルゴリズムの実装において、プライバシ保護がますます重要になっている。
論文 参考訳(メタデータ) (2022-05-08T14:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。