論文の概要: Open LLMs are Necessary for Current Private Adaptations and Outperform their Closed Alternatives
- arxiv url: http://arxiv.org/abs/2411.05818v1
- Date: Sat, 02 Nov 2024 12:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-17 08:33:28.313680
- Title: Open LLMs are Necessary for Current Private Adaptations and Outperform their Closed Alternatives
- Title(参考訳): オープンLLMは、現在のプライベート適応とクローズド代替品の性能向上に必要である
- Authors: Vincent Hanke, Tom Blanchard, Franziska Boenisch, Iyiola Emmanuel Olatunji, Michael Backes, Adam Dziedzic,
- Abstract要約: 閉LLMのプライベート適応のための4つの最新の手法のプライバシ保護と性能について分析する。
真のプライバシ保護のLLM適応を実現するために、現在の方法やモデルを考慮して、オープンなLLMを使用する必要がある。
- 参考スコア(独自算出の注目度): 18.907157609731634
- License:
- Abstract: While open Large Language Models (LLMs) have made significant progress, they still fall short of matching the performance of their closed, proprietary counterparts, making the latter attractive even for the use on highly private data. Recently, various new methods have been proposed to adapt closed LLMs to private data without leaking private information to third parties and/or the LLM provider. In this work, we analyze the privacy protection and performance of the four most recent methods for private adaptation of closed LLMs. By examining their threat models and thoroughly comparing their performance under different privacy levels according to differential privacy (DP), various LLM architectures, and multiple datasets for classification and generation tasks, we find that: (1) all the methods leak query data, i.e., the (potentially sensitive) user data that is queried at inference time, to the LLM provider, (2) three out of four methods also leak large fractions of private training data to the LLM provider while the method that protects private data requires a local open LLM, (3) all the methods exhibit lower performance compared to three private gradient-based adaptation methods for local open LLMs, and (4) the private adaptation methods for closed LLMs incur higher monetary training and query costs than running the alternative methods on local open LLMs. This yields the conclusion that, to achieve truly privacy-preserving LLM adaptations that yield high performance and more privacy at lower costs, taking into account current methods and models, one should use open LLMs.
- Abstract(参考訳): オープンなLarge Language Models (LLMs) は大きな進歩を遂げているが、クローズドでプロプライエタリな言語のパフォーマンスには相容れない。
近年, サードパーティやLLMプロバイダに個人情報を漏らすことなく, 閉じたLCMをプライベートデータに適用する手法が提案されている。
本研究では, 閉じたLCMをプライベートに適応するための最新の4つの手法のプライバシ保護と性能について分析する。
それらの脅威モデルを調べ, 異なるプライバシ(DP), 様々なLCMアーキテクチャ, 分類および生成タスクのための複数のデータセットを用いて, その性能を徹底的に比較することにより, 1) 推論時にクエリデータをリークする(潜在的にセンシティブな)ユーザデータ,(2) 4つのメソッドのうち3つは, LLMプロバイダに大量のプライベートトレーニングデータをリークする一方で, (3) プライベートデータを保護する手法は, ローカルオープンなLCMよりも低い性能を示す。
このことは、真のプライバシ保護のLLM適応を達成するために、現在の方法やモデルを考慮し、より高性能でよりプライバシーの高いLCMを低コストで提供し、オープンなLCMを使用するべきであるという結論を導いた。
関連論文リスト
- LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z) - PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [42.20437015301152]
言語モデル(LM)のプライバシー漏洩を評価するベンチマークであるPrivLM-Benchを提案する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - Last One Standing: A Comparative Analysis of Security and Privacy of
Soft Prompt Tuning, LoRA, and In-Context Learning [25.454403998164203]
大きな言語モデル(LLM)は自然言語処理のための強力なツールであり、新しいアプリケーションやユーザエクスペリエンスを可能にする。
LLMは、プライバシとセキュリティ上の問題を引き起こすプライベートデータへの適応を必要とすることが多い。
LLMをプライベートデータに適用するためのいくつかの手法が提案されているが、それらの比較プライバシーとセキュリティ特性は体系的に研究されていない。
論文 参考訳(メタデータ) (2023-10-17T17:03:00Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。