論文の概要: Revisiting Privacy, Utility, and Efficiency Trade-offs when Fine-Tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2502.13313v1
- Date: Tue, 18 Feb 2025 22:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:03.375016
- Title: Revisiting Privacy, Utility, and Efficiency Trade-offs when Fine-Tuning Large Language Models
- Title(参考訳): 大規模言語モデルの微調整によるプライバシ・ユーティリティ・効率トレードオフの再検討
- Authors: Soumi Das, Camila Kolling, Mohammad Aflah Khan, Mahsa Amani, Bishwamittra Ghosh, Qinyuan Wu, Till Speicher, Krishna P. Gummadi,
- Abstract要約: プライバシーリスクの最小化とユーティリティの最大化において、高い計算効率を維持しながら、固有のトレードオフについて検討する。
LoRAのような効率的な微調整手法は、DPのようなプライベートな微調整手法と同様のプライバシーリスクを軽減する。
- 参考スコア(独自算出の注目度): 12.635018411121413
- License:
- Abstract: We study the inherent trade-offs in minimizing privacy risks and maximizing utility, while maintaining high computational efficiency, when fine-tuning large language models (LLMs). A number of recent works in privacy research have attempted to mitigate privacy risks posed by memorizing fine-tuning data by using differentially private training methods (e.g., DP), albeit at a significantly higher computational cost (inefficiency). In parallel, several works in systems research have focussed on developing (parameter) efficient fine-tuning methods (e.g., LoRA), but few works, if any, investigated whether such efficient methods enhance or diminish privacy risks. In this paper, we investigate this gap and arrive at a surprising conclusion: efficient fine-tuning methods like LoRA mitigate privacy risks similar to private fine-tuning methods like DP. Our empirical finding directly contradicts prevailing wisdom that privacy and efficiency objectives are at odds during fine-tuning. Our finding is established by (a) carefully defining measures of privacy and utility that distinguish between memorizing sensitive and non-sensitive tokens in training and test datasets used in fine-tuning and (b) extensive evaluations using multiple open-source language models from Pythia, Gemma, and Llama families and different domain-specific datasets.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)の微調整において,プライバシーリスクの最小化とユーティリティの最大化にともなうトレードオフについて,高い計算効率を維持しながら検討する。
プライバシー研究における最近の多くの研究は、差分プライベートトレーニング手法(DPなど)を用いて微調整データを記憶することで生じるプライバシーリスクを著しく高い計算コスト(能率)で軽減しようと試みている。
並行して、システム研究におけるいくつかの研究は、(パラメータ)効率的な微調整方法(例えばLoRA)の開発に焦点を合わせてきたが、そのような効率的な方法がプライバシーリスクを高めるか低下させるかを調査する研究はほとんどない。
本稿では、このギャップを調査し、ロラのような効率的な微調整手法は、DPのようなプライベートな微調整手法と同様のプライバシーリスクを軽減する。
私たちの経験的発見は、微調整中にプライバシーと効率の目標が相反するという知恵と直接矛盾する。
我々の発見は確立されている
(a)微調整に使用するデータセットの訓練と試験において、敏感なトークンと非敏感なトークンを記憶することとを区別するプライバシーとユーティリティの指標を慎重に定義すること。
b) Pythia, Gemma, Llamaファミリーの複数のオープンソース言語モデルと異なるドメイン固有のデータセットを用いた広範な評価を行った。
関連論文リスト
- Linear-Time User-Level DP-SCO via Robust Statistics [55.350093142673316]
ユーザレベルの差分プライベート凸最適化(DP-SCO)は、マシンラーニングアプリケーションにおけるユーザのプライバシ保護の重要性から、大きな注目を集めている。
微分プライベート勾配勾配(DP-SGD)に基づくような現在の手法は、しばしば高雑音蓄積と準最適利用に苦しむ。
これらの課題を克服するために、ロバストな統計、特に中央値とトリミング平均を利用する新しい線形時間アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-13T02:05:45Z) - Differentially Private Random Feature Model [52.468511541184895]
プライバシを保存するカーネルマシンに対して,差分的にプライベートな特徴モデルを作成する。
本手法は,プライバシを保護し,一般化誤差を導出する。
論文 参考訳(メタデータ) (2024-12-06T05:31:08Z) - Efficient and Private: Memorisation under differentially private parameter-efficient fine-tuning in language models [2.3281513013731145]
特定のタスクのための微調整された大型言語モデル(LLM)は、不注意に記憶し、センシティブなトレーニングデータを漏洩する可能性があるため、プライバシのリスクをもたらす。
差分プライバシー(DP)は、これらのリスクを軽減するソリューションを提供するが、重大な計算とパフォーマンスのトレードオフをもたらす。
PEFT法は,パラメータを少なくし,プライバシリークを著しく低減しつつ,標準的な微調整に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-11-24T13:17:36Z) - On Active Privacy Auditing in Supervised Fine-tuning for White-Box Language Models [7.275432177367344]
パーシングは、言語モデル(LM)の教師付き微調整中にプライバシー漏洩リスクを特定し定量化するように設計されている。
我々は,GPT-2,Llama2などの大規模LMに対するMIA(White-box Membering Inference attack)の有効性を改善した。
本研究の目的は,LMのSFTコミュニティに対して,信頼性と使用可能なプライバシ監査ツールの提供と,微調整プロセス中のプライバシ保護に関する貴重な洞察を提供することである。
論文 参考訳(メタデータ) (2024-11-11T15:46:07Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - Differentially Private Stochastic Gradient Descent with Low-Noise [49.981789906200035]
現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目的としており、プライバシー保護の目標と矛盾することが多い。
本稿では、プライバシを保ちながら優れたパフォーマンスを確保するために、プライバシを保存する機械学習アルゴリズムを開発することの実践的および理論的重要性について論じる。
論文 参考訳(メタデータ) (2022-09-09T08:54:13Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - SPEED: Secure, PrivatE, and Efficient Deep learning [2.283665431721732]
私たちは、強力なプライバシー制約に対処できるディープラーニングフレームワークを導入します。
協調学習、差分プライバシー、同型暗号化に基づいて、提案手法は最先端技術に進化する。
論文 参考訳(メタデータ) (2020-06-16T19:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。