論文の概要: PrivTune: Efficient and Privacy-Preserving Fine-Tuning of Large Language Models via Device-Cloud Collaboration
- arxiv url: http://arxiv.org/abs/2512.08809v1
- Date: Tue, 09 Dec 2025 17:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.056316
- Title: PrivTune: Efficient and Privacy-Preserving Fine-Tuning of Large Language Models via Device-Cloud Collaboration
- Title(参考訳): PrivTune: デバイス-クラウドコラボレーションによる大規模言語モデルの効率的かつプライバシ保護のための微調整
- Authors: Yi Liu, Weixiang Han, Chengjun Cai, Xingliang Yuan, Cong Wang,
- Abstract要約: スプリットラーニング(SL)による効率的かつプライバシ保護のための微調整フレームワークであるPrivTuneを提案する。
PrivTuneのキーとなるアイデアは、SLボトムモデルからクラフトノイズをトークン表現に注入することであり、各トークンは$n$hopの間接的な隣人に似ている。
実験によると、Stanford Sentiment TreebankデータセットでRoBERTaを使用することで、PrivTuneは攻撃成功率を10%に削減し、ユーティリティパフォーマンスはわずか3.33%低下した。
- 参考スコア(独自算出の注目度): 17.909232830653618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of large language models, service providers offer language models as a service, enabling users to fine-tune customized models via uploaded private datasets. However, this raises concerns about sensitive data leakage. Prior methods, relying on differential privacy within device-cloud collaboration frameworks, struggle to balance privacy and utility, exposing users to inference attacks or degrading fine-tuning performance. To address this, we propose PrivTune, an efficient and privacy-preserving fine-tuning framework via Split Learning (SL). The key idea of PrivTune is to inject crafted noise into token representations from the SL bottom model, making each token resemble the $n$-hop indirect neighbors. PrivTune formulates this as an optimization problem to compute the optimal noise vector, aligning with defense-utility goals. On this basis, it then adjusts the parameters (i.e., mean) of the $d_χ$-Privacy noise distribution to align with the optimization direction and scales the noise according to token importance to minimize distortion. Experiments on five datasets (covering both classification and generation tasks) against three embedding inversion and three attribute inference attacks show that, using RoBERTa on the Stanford Sentiment Treebank dataset, PrivTune reduces the attack success rate to 10% with only a 3.33% drop in utility performance, outperforming state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデルの台頭に伴い、サービスプロバイダは言語モデルをサービスとして提供し、アップロードされたプライベートデータセットを通じてカスタマイズされたモデルを微調整することができる。
しかし、これは機密データ漏洩に関する懸念を引き起こす。
以前の方法では、デバイスとクラウドのコラボレーションフレームワーク内の異なるプライバシに依存し、プライバシとユーティリティのバランスをとるのに苦労し、ユーザが攻撃を推論したり、微調整のパフォーマンスを低下させたりしていました。
そこで本研究では,Split Learning (SL) を通じて,効率的かつプライバシ保護可能な微調整フレームワークであるPrivTuneを提案する。
PrivTuneのキーとなるアイデアは、SLボトムモデルからクラフトノイズをトークン表現に注入することであり、各トークンは$n$hopの間接的な隣人に似ている。
PrivTuneはこれを最適化問題として定式化し、最適なノイズベクトルを計算し、防衛ユーティリティの目標と整合する。
このベースでは、$d_a$-Privacyノイズ分布のパラメータ(平均値)を最適化方向に合わせて調整し、トークンの重要度に応じてノイズを拡大し、歪みを最小限に抑える。
組み込み3つのインバージョンと3つの属性推論攻撃に対する5つのデータセット(分類と生成タスクの両方をカバーする)の実験では、Stanford Sentiment TreebankデータセットでRoBERTaを使用することで、PrivTuneは攻撃成功率を10%に削減し、実用性能はわずか3.33%低下し、最先端のベースラインを上回っている。
関連論文リスト
- Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。
CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文 参考訳(メタデータ) (2025-08-03T13:15:52Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Clients Collaborate: Flexible Differentially Private Federated Learning with Guaranteed Improvement of Utility-Privacy Trade-off [31.688806024426928]
我々は、厳格なプライバシー保証を備えた新しいフェデレーション学習フレームワーク、FedCEOを紹介した。
スペクトル空間における高周波成分を柔軟に切り離す能力を示す。
我々は、異なるプライバシー設定の下で、大幅なパフォーマンス改善と厳格なプライバシー保証を示す。
論文 参考訳(メタデータ) (2024-02-10T17:39:34Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Adaptive Differential Privacy in Federated Learning: A Priority-Based
Approach [0.0]
フェデレートラーニング(FL)は、ローカルデータセットに直接アクセスせずにグローバルモデルを開発する。
DPはパラメータに一定のノイズを加えることで、プライバシーを保証するフレームワークを提供する。
本稿では,特徴量の相対的重要度に基づいて入射雑音の値を決定するFLの適応雑音付加法を提案する。
論文 参考訳(メタデータ) (2024-01-04T03:01:15Z) - Split-and-Denoise: Protect large language model inference with local differential privacy [2.572566198588905]
Split-N-Denoise (SnD) はプライベートな推論フレームワークであり、最小の計算コストでクライアント側でトークン埋め込み層を実行するためにモデルを分割する。
各種LLMアーキテクチャおよび下流タスク間のプライバシ・ユーティリティ・トレードオフを最適化する上で,SnDの有効性を示す。
論文 参考訳(メタデータ) (2023-10-13T14:17:33Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。