論文の概要: SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks
- arxiv url: http://arxiv.org/abs/2506.10424v1
- Date: Thu, 12 Jun 2025 07:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.626934
- Title: SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks
- Title(参考訳): SOFT:メンバーシップ推論攻撃に対するLCMファインチューニング保護のための選択的データ難読化
- Authors: Kaiyuan Zhang, Siyuan Cheng, Hanxi Guo, Yuetian Chen, Zian Su, Shengwei An, Yuntao Du, Charles Fleming, Ashish Kundu, Xiangyu Zhang, Ninghui Li,
- Abstract要約: メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
- 参考スコア(独自算出の注目度): 17.77094760401298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable success and are widely adopted for diverse applications. However, fine-tuning these models often involves private or sensitive information, raising critical privacy concerns. In this work, we conduct the first comprehensive study evaluating the vulnerability of fine-tuned LLMs to membership inference attacks (MIAs). Our empirical analysis demonstrates that MIAs exploit the loss reduction during fine-tuning, making them highly effective in revealing membership information. These findings motivate the development of our defense. We propose SOFT (\textbf{S}elective data \textbf{O}bfuscation in LLM \textbf{F}ine-\textbf{T}uning), a novel defense technique that mitigates privacy leakage by leveraging influential data selection with an adjustable parameter to balance utility preservation and privacy protection. Our extensive experiments span six diverse domains and multiple LLM architectures and scales. Results show that SOFT effectively reduces privacy risks while maintaining competitive model performance, offering a practical and scalable solution to safeguard sensitive information in fine-tuned LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい成功を収め、多様なアプリケーションに広く採用されている。
しかし、これらのモデルの微調整は、しばしばプライベートまたは機密情報を伴い、重要なプライバシー上の懸念を引き起こす。
本研究は,MIA(メンバシップ推論攻撃)に対する微調整LDMの脆弱性を評価するための総合的研究である。
実験分析の結果,MIAは微調整時の損失低減を生かし,メンバーシップ情報の開示に極めて有効であることがわかった。
これらの発見は、我々の防衛の発展を動機付けている。
LLM \textbf{F}ine-\textbf{T}uning における SOFT (\textbf{S}elective data \textbf{O}bfuscation in LLM \textbf{F}ine-\textbf{T}uning) を提案する。
大規模な実験は6つの異なるドメインと複数のLLMアーキテクチャとスケールにまたがる。
その結果、SOFTは競合モデルの性能を維持しながら、プライバシーリスクを効果的に低減し、微調整LLMにおける機密情報を保護するための実用的でスケーラブルなソリューションを提供することがわかった。
関連論文リスト
- FedShield-LLM: A Secure and Scalable Federated Fine-Tuned Large Language Model [0.48342038441006796]
Federated Learning (FL)は、LLM(Large Language Models)のトレーニングと微調整のための分散フレームワークを提供する。
FLはプライバシとセキュリティの懸念に対処し、LLMの相当な計算要求に関連する課題をナビゲートする。
ローランド適応 (LoRA) パラメータに対して, 完全同型暗号化 (FHE) を用いたプルーニングを用いた新しいFedShield-LLMを提案する。
論文 参考訳(メタデータ) (2025-06-06T00:05:05Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究は,プライバシ保証付きアクティベーションを編集するPSA(Private Steering for LLM Alignment)アルゴリズムを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Privacy in Fine-tuning Large Language Models: Attacks, Defenses, and Future Directions [11.338466798715906]
細調整された大規模言語モデル(LLM)は、様々な領域で最先端のパフォーマンスを達成することができる。
本稿では、微調整LDMに関連するプライバシー問題に関する包括的調査を行う。
メンバーシップ推論、データ抽出、バックドア攻撃など、さまざまなプライバシ攻撃に対する脆弱性を強調します。
論文 参考訳(メタデータ) (2024-12-21T06:41:29Z) - Model-based Large Language Model Customization as Service [34.949731264918846]
OpenAIやGoogleといったプロバイダによる大規模言語モデル(LLM)サービスは、一般的なタスクでは優れているが、ドメイン固有のアプリケーションではパフォーマンスが劣ることが多い。
Llamdexは、LLMのカスタマイズをサービスとして促進する新しいフレームワークで、クライアントはデータではなく、トレーニング済みのドメイン固有モデルをアップロードする。
実験によると、Llamdexは、同じプライバシー制約の下で、最先端のプライベートデータ合成メソッドに対して、ドメイン固有の精度を最大26%向上する。
論文 参考訳(メタデータ) (2024-10-14T13:18:20Z) - Unveiling the Vulnerability of Private Fine-Tuning in Split-Based Frameworks for Large Language Models: A Bidirectionally Enhanced Attack [20.727726850786386]
BiSRは、スプリットラーニング(SL)の前方および後方伝播プロセスの両方をターゲットにした最初のデータ再構成攻撃である。
SLの前方および後方伝播過程を標的とした最初のデータ再構成攻撃(DRA)であるBiSRを提案する。
論文 参考訳(メタデータ) (2024-09-02T06:01:20Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z) - Last One Standing: A Comparative Analysis of Security and Privacy of
Soft Prompt Tuning, LoRA, and In-Context Learning [25.454403998164203]
大きな言語モデル(LLM)は自然言語処理のための強力なツールであり、新しいアプリケーションやユーザエクスペリエンスを可能にする。
LLMは、プライバシとセキュリティ上の問題を引き起こすプライベートデータへの適応を必要とすることが多い。
LLMをプライベートデータに適用するためのいくつかの手法が提案されているが、それらの比較プライバシーとセキュリティ特性は体系的に研究されていない。
論文 参考訳(メタデータ) (2023-10-17T17:03:00Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。