論文の概要: CTIGuardian: A Few-Shot Framework for Mitigating Privacy Leakage in Fine-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2512.12914v1
- Date: Mon, 15 Dec 2025 01:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.49776
- Title: CTIGuardian: A Few-Shot Framework for Mitigating Privacy Leakage in Fine-Tuned LLMs
- Title(参考訳): CTIGuardian: 微調整LDMにおけるプライバシ漏洩の軽減を目的としたFew-Shotフレームワーク
- Authors: Shashie Dilhara Batan Arachchige, Benjamin Zi Hao Zhao, Hassan Jameel Asghar, Dinusha Vatsalan, Dali Kaafar,
- Abstract要約: 大規模言語モデル(LLM)は、サイバー脅威インテリジェンス(CTI)のような特定のタスクやドメインに汎用的な知識を適用するために、しばしば微調整される。
LLMの安全性アライメントにインスパイアされた、プライバシーアライメント(プライバシーアライメント)という代替手法を提案する。
GPT-4o mini と Mistral-7B のインストラクトモデルを用いて,CTIGuardian と呼ばれるシステムを評価し,名前付きエンティティ認識(NER)ベースラインである Presidio に対してベンチマークを行った。
- 参考スコア(独自算出の注目度): 2.986027976506785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are often fine-tuned to adapt their general-purpose knowledge to specific tasks and domains such as cyber threat intelligence (CTI). Fine-tuning is mostly done through proprietary datasets that may contain sensitive information. Owners expect their fine-tuned model to not inadvertently leak this information to potentially adversarial end users. Using CTI as a use case, we demonstrate that data-extraction attacks can recover sensitive information from fine-tuned models on CTI reports, underscoring the need for mitigation. Retraining the full model to eliminate this leakage is computationally expensive and impractical. We propose an alternative approach, which we call privacy alignment, inspired by safety alignment in LLMs. Just like safety alignment teaches the model to abide by safety constraints through a few examples, we enforce privacy alignment through few-shot supervision, integrating a privacy classifier and a privacy redactor, both handled by the same underlying LLM. We evaluate our system, called CTIGuardian, using GPT-4o mini and Mistral-7B Instruct models, benchmarking against Presidio, a named entity recognition (NER) baseline. Results show that CTIGuardian provides a better privacy-utility trade-off than NER based models. While we demonstrate its effectiveness on a CTI use case, the framework is generic enough to be applicable to other sensitive domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、サイバー脅威インテリジェンス(CTI)のような特定のタスクやドメインに汎用的な知識を適用するために、しばしば微調整される。
微調整は主に機密情報を含む可能性のあるプロプライエタリなデータセットを通じて行われる。
オーナーは、自分の微調整されたモデルが、この情報を必然的に敵のエンドユーザーにリークしないことを期待している。
CTIをユースケースとして、データ抽出攻撃がCTIレポートの微調整モデルから機密情報を復元できることを示し、緩和の必要性を強調した。
このリークを取り除くために、完全なモデルをトレーニングすることは、計算コストが高く、実用的ではない。
LLMの安全性アライメントにインスパイアされた、プライバシーアライメント(プライバシーアライメント)という代替手法を提案する。
安全アライメントが、いくつかの例を通してモデルに安全制約を課すように、プライバシアライメントを数ショットの監視を通じて実施するのと同じように、プライバシクラシファイアとプライバシリリリアクタを統合して、どちらも同じ基盤となるLLMで処理します。
GPT-4o mini と Mistral-7B のインストラクトモデルを用いて,CTIGuardian と呼ばれるシステムを評価し,名前付きエンティティ認識(NER)ベースラインである Presidio に対してベンチマークを行った。
結果は、CTIGuardianがNERベースのモデルよりも優れたプライバシーユーティリティトレードオフを提供することを示している。
私たちはCTIのユースケースでその効果を実証していますが、フレームワークは他の機密ドメインに適用できるほど汎用的です。
関連論文リスト
- Enterprise AI Must Enforce Participant-Aware Access Control [9.68210477539956]
大規模言語モデル(LLM)は、複数のユーザと対話し、センシティブな内部データに基づいてトレーニングあるいは微調整されるエンタープライズ環境に、ますます多くデプロイされている。
敵は、現在の微調整アーキテクチャやRAGアーキテクチャを利用して、アクセス制御の強制力の欠如を活用して機密情報を漏洩することができることを示す。
本稿では, LLM による学習, 検索, 生成に使用されるコンテンツは, インセンティブに関わるユーザに対して明示的に認証される,という原則に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T04:30:49Z) - SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks [32.73803760326097]
ファインタニング・アズ・ア・サービス(F: Finetuning-as-a-Service)は、ユーザが自身のデータを使ってLarge Language Models(LLM)をカスタマイズできる機能である。
プライマリワークは、まず安全に整合したモデルを構築し、次にユーザデータ上でモデルを微調整することで、この問題を緩和しようとします。
本稿では,Refusal-Teacher(Ref-Teacher)誘導ファインタニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T02:10:51Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - On the Evaluation of User Privacy in Deep Neural Networks using Timing
Side Channel [14.350301915592027]
我々は,Deep Learning (DL) の実装において,新たなデータ依存型タイミング側チャネルリーク(クラスリーク)を特定し,報告する。
ユーザ特権とハードラベルのブラックボックスアクセスを持つ敵が、クラスリークを悪用できる、実用的な推論時攻撃を実証する。
我々は,クラスリークを緩和する定時分岐操作を行うことにより,実装が容易な対策を開発する。
論文 参考訳(メタデータ) (2022-08-01T19:38:16Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。