論文の概要: ObfuscaTune: Obfuscated Offsite Fine-tuning and Inference of Proprietary LLMs on Private Datasets
- arxiv url: http://arxiv.org/abs/2407.02960v1
- Date: Wed, 3 Jul 2024 09:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:55:24.558075
- Title: ObfuscaTune: Obfuscated Offsite Fine-tuning and Inference of Proprietary LLMs on Private Datasets
- Title(参考訳): ObfuscaTune: オフサイトファインチューニングの難しさとプライベートデータセット上のプライオリティLLMの推測
- Authors: Ahmed Frikha, Nassim Walha, Ricardo Mendes, Krishna Kanth Nakka, Xue Jiang, Xuebing Zhou,
- Abstract要約: この研究は、モデルプロバイダが所有する独自のLLMの推論と微調整を行うという、未解明のタイムリーな問題に対処する。
本稿では, シンプルで効率的な難読化手法と秘密計算の効率的な利用を併用した, 新規で効率的で完全かつ実用的保存手法であるObfuscaTuneを提案する。
- 参考スコア(独自算出の注目度): 8.483679748399037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the timely yet underexplored problem of performing inference and finetuning of a proprietary LLM owned by a model provider entity on the confidential/private data of another data owner entity, in a way that ensures the confidentiality of both the model and the data. Hereby, the finetuning is conducted offsite, i.e., on the computation infrastructure of a third-party cloud provider. We tackle this problem by proposing ObfuscaTune, a novel, efficient and fully utility-preserving approach that combines a simple yet effective obfuscation technique with an efficient usage of confidential computing (only 5% of the model parameters are placed on TEE). We empirically demonstrate the effectiveness of ObfuscaTune by validating it on GPT-2 models with different sizes on four NLP benchmark datasets. Finally, we compare to a na\"ive version of our approach to highlight the necessity of using random matrices with low condition numbers in our approach to reduce errors induced by the obfuscation.
- Abstract(参考訳): この研究は、モデルとデータの両方の機密性を保証する方法で、他のデータ所有者エンティティの秘密/秘密データに対して、モデルプロバイダエンティティが所有する独自のLCMの推論と微調整を行うという、時折未解決の問題に対処する。
これにより、サードパーティのクラウドプロバイダの計算インフラにおいて、その微調整が行われる。
これは、シンプルで効果的な難読化技術と効率的な秘密計算(TEEにはモデルパラメータの5%しか配置されていない)を組み合わせた、新しく、効率的で、完全に実用的な保存手法である。
4つのNLPベンチマークデータセットで異なる大きさのGPT-2モデル上で,ObfuscaTuneの有効性を実証的に検証した。
最後に, 難解化による誤差を低減するために, 条件数が少ないランダム行列を用いることの必要性を強調するために, 提案手法のna\"iveバージョンと比較した。
関連論文リスト
- FedAdOb: Privacy-Preserving Federated Deep Learning with Adaptive Obfuscation [26.617708498454743]
フェデレーテッド・ラーニング(FL)は、複数のクライアントがプライベートデータを共有せずに、共同で機械学習モデルを学習できるコラボレーティブ・アプローチとして登場した。
本稿では,FedAdObと呼ばれる新しい適応難読化機構を提案する。
論文 参考訳(メタデータ) (2024-06-03T08:12:09Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - Privacy-Preserving Load Forecasting via Personalized Model Obfuscation [4.420464017266168]
本稿では,異種データを用いたフェデレーション学習で訓練した短期負荷予測モデルの性能課題について述べる。
提案するアルゴリズムであるプライバシー保護フェデレートラーニング(PPFL)では,各スマートメータでのローカライズトレーニングのためのパーソナライズレイヤが組み込まれている。
論文 参考訳(メタデータ) (2023-11-21T03:03:10Z) - Practical Privacy-Preserving Gaussian Process Regression via Secret
Sharing [23.80837224347696]
本稿では秘密共有(SS)に基づくプライバシー保護型GPR手法を提案する。
コンフュージョン補正(confusion-correction)というアイデアを通じて,新たなSSベースの指数演算を導出し,Cholesky分解に基づくSSベースの行列逆変換アルゴリズムを構築する。
実験結果から,データプライバシ保護の前提として,提案手法が妥当な精度と効率を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-26T08:17:51Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - ADePT: Auto-encoder based Differentially Private Text Transformation [22.068984615657463]
自動エンコーダを用いたユーティリティ保存型差分プライベートテキスト変換アルゴリズムを提案する。
我々のアルゴリズムはテキストを変換し、攻撃に対して堅牢性を提供し、意味的品質の高い変換を生成する。
その結果,提案手法はMIA攻撃に対して有効であり,基礎となる変換プロセスの有用性は低下しないことがわかった。
論文 参考訳(メタデータ) (2021-01-29T23:15:24Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。