論文の概要: Open LLMs are Necessary for Current Private Adaptations and Outperform their Closed Alternatives
- arxiv url: http://arxiv.org/abs/2411.05818v2
- Date: Fri, 15 Nov 2024 16:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:11.251291
- Title: Open LLMs are Necessary for Current Private Adaptations and Outperform their Closed Alternatives
- Title(参考訳): オープンLLMは、現在のプライベート適応とクローズド代替品の性能向上に必要である
- Authors: Vincent Hanke, Tom Blanchard, Franziska Boenisch, Iyiola Emmanuel Olatunji, Michael Backes, Adam Dziedzic,
- Abstract要約: 閉LLMのプライベート適応のための4つの最新の手法のプライバシ保護と性能について分析する。
真のプライバシ保護のLLM適応を実現するために、現在の方法やモデルを考慮して、オープンなLLMを使用する必要がある。
- 参考スコア(独自算出の注目度): 18.907157609731634
- License:
- Abstract: While open Large Language Models (LLMs) have made significant progress, they still fall short of matching the performance of their closed, proprietary counterparts, making the latter attractive even for the use on highly private data. Recently, various new methods have been proposed to adapt closed LLMs to private data without leaking private information to third parties and/or the LLM provider. In this work, we analyze the privacy protection and performance of the four most recent methods for private adaptation of closed LLMs. By examining their threat models and thoroughly comparing their performance under different privacy levels according to differential privacy (DP), various LLM architectures, and multiple datasets for classification and generation tasks, we find that: (1) all the methods leak query data, i.e., the (potentially sensitive) user data that is queried at inference time, to the LLM provider, (2) three out of four methods also leak large fractions of private training data to the LLM provider while the method that protects private data requires a local open LLM, (3) all the methods exhibit lower performance compared to three private gradient-based adaptation methods for local open LLMs, and (4) the private adaptation methods for closed LLMs incur higher monetary training and query costs than running the alternative methods on local open LLMs. This yields the conclusion that, to achieve truly privacy-preserving LLM adaptations that yield high performance and more privacy at lower costs, taking into account current methods and models, one should use open LLMs.
- Abstract(参考訳): オープンなLarge Language Models (LLMs) は大きな進歩を遂げているが、クローズドでプロプライエタリな言語のパフォーマンスには相容れない。
近年, サードパーティやLLMプロバイダに個人情報を漏らすことなく, 閉じたLCMをプライベートデータに適用する手法が提案されている。
本研究では, 閉じたLCMをプライベートに適応するための最新の4つの手法のプライバシ保護と性能について分析する。
それらの脅威モデルを調べ, 異なるプライバシ(DP), 様々なLCMアーキテクチャ, 分類および生成タスクのための複数のデータセットを用いて, その性能を徹底的に比較することにより, 1) 推論時にクエリデータをリークする(潜在的にセンシティブな)ユーザデータ,(2) 4つのメソッドのうち3つは, LLMプロバイダに大量のプライベートトレーニングデータをリークする一方で, (3) プライベートデータを保護する手法は, ローカルオープンなLCMよりも低い性能を示す。
このことは、真のプライバシ保護のLLM適応を達成するために、現在の方法やモデルを考慮し、より高性能でよりプライバシーの高いLCMを低コストで提供し、オープンなLCMを使用するべきであるという結論を導いた。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究では, LLM underlineAment (PSA) アルゴリズムのためのtextitunderlinePrivate underlineSteeringを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Model-Based Privacy-Preserving Knowledge Transfer for Large Language Models [34.949731264918846]
Llamdexは大規模言語モデル(LLM)を強化するフレームワークで、ドメイン固有のデータに基づいてトレーニングされたモデルのみを使用する。
提案手法は,ドメイン固有のタスクの精度を大幅に向上し,最大26%の精度向上を実現する。
論文 参考訳(メタデータ) (2024-10-14T13:18:20Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。