論文の概要: Differentiation-Based Extraction of Proprietary Data from Fine-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2506.17353v1
- Date: Fri, 20 Jun 2025 02:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.375114
- Title: Differentiation-Based Extraction of Proprietary Data from Fine-Tuned LLMs
- Title(参考訳): 微調整LDMからの原位置データの偏差に基づく抽出
- Authors: Zongjie Li, Daoyuan Wu, Shuai Wang, Zhendong Su,
- Abstract要約: 本稿では,Supervised Fine-Tuning(SFT)データセットからデータを抽出する際の重要な研究課題について考察する。
我々は、微分データ抽出(DDE)と呼ばれる、SFTモデルに特化して設計された新しい抽出法を開発した。
以上の結果から,DDEはすべての攻撃設定において,既存の抽出ベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 13.835835256858653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing demand for domain-specific and human-aligned Large Language Models (LLMs) has led to the widespread adoption of Supervised Fine-Tuning (SFT) techniques. SFT datasets often comprise valuable instruction-response pairs, making them highly valuable targets for potential extraction. This paper studies this critical research problem for the first time. We start by formally defining and formulating the problem, then explore various attack goals, types, and variants based on the unique properties of SFT data in real-world scenarios. Based on our analysis of extraction behaviors of direct extraction, we develop a novel extraction method specifically designed for SFT models, called Differentiated Data Extraction (DDE), which exploits the confidence levels of fine-tuned models and their behavioral differences from pre-trained base models. Through extensive experiments across multiple domains and scenarios, we demonstrate the feasibility of SFT data extraction using DDE. Our results show that DDE consistently outperforms existing extraction baselines in all attack settings. To counter this new attack, we propose a defense mechanism that mitigates DDE attacks with minimal impact on model performance. Overall, our research reveals hidden data leak risks in fine-tuned LLMs and provides insights for developing more secure models.
- Abstract(参考訳): ドメイン固有および人間対応のLarge Language Models (LLMs) に対する需要が増加し、Supervised Fine-Tuning (SFT) 技術が広く採用されるようになった。
SFTデータセットは、しばしば貴重な命令応答ペアで構成され、潜在的な抽出のための非常に価値のあるターゲットとなる。
本稿では,この重要な研究課題を初めて考察する。
まず、問題の正式な定義と定式化から始め、実世界のシナリオにおけるSFTデータのユニークな特性に基づいて、様々な攻撃目標、タイプ、変種を探索する。
本研究は, 直接抽出の抽出行動の解析に基づいて, 微調整モデルの信頼性レベルと事前学習ベースモデルとの挙動差を生かした, 微分データ抽出(DDE)と呼ばれる, SFTモデルに特化して設計された新しい抽出法を開発した。
複数の領域やシナリオにわたる広範な実験を通じて、DDEを用いたSFTデータ抽出の実現可能性を示す。
以上の結果から,DDEはすべての攻撃設定において,既存の抽出ベースラインを一貫して上回っていることがわかった。
そこで本研究では,DDE攻撃をモデル性能に最小限の影響で軽減する防御機構を提案する。
全体として、我々の研究は微調整LDMの隠れたデータ漏洩リスクを明らかにし、より安全なモデルを開発するための洞察を提供する。
関連論文リスト
- Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality [10.74213785908381]
Supervised Fine-tuning (SFT) は、大きな言語モデルを人間の指示や値に合わせるための重要なステップである。
コード生成、数学的推論、汎用ドメインタスクなど、さまざまなデータセットに基づいて、幅広いベースモデルをトレーニングしました。
我々は、これらの1000以上のSFTモデルとベンチマーク結果をリリースし、さらなる研究を加速する。
論文 参考訳(メタデータ) (2025-06-17T16:13:15Z) - Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting [1.5595148909011116]
SFTデータにアクセスせずに破滅的忘れを効果的に抑制できる新しい,コスト効率のよいスーパーバイザードファインチューニング法を提案する。
実験結果から,本手法はタスク固有性能を改善しつつ,一般領域での一般化能力を保っていることが示された。
論文 参考訳(メタデータ) (2025-06-11T06:23:50Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - Paving the way for scientific foundation models: enhancing generalization and robustness in PDEs with constraint-aware pre-training [49.8035317670223]
科学基盤モデル(SciFM)は、様々な領域にまたがる伝達可能な表現を学習するための有望なツールとして登場しつつある。
本稿では,PDE残差を単独の学習信号として,あるいはデータ損失と組み合わせて事前学習に組み込むことにより,限定的あるいは実用的でないトレーニングデータに補償することを提案する。
以上の結果から, PDE制約による事前学習は, 解データのみを訓練したモデルよりも, 一般化を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-03-24T19:12:39Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Unified Source-Free Domain Adaptation [41.90015041165936]
統合食品医薬品局(SFDA)における潜在因果因子発見の新たなアプローチを提案する。
現実の統計的記述の学習を強調する従来の代替手段とは対照的に、因果性の観点からCausalDAを定式化する。
広義の世界知識を統合するために、CLIPのような事前学習された視覚言語モデルを利用する。
論文 参考訳(メタデータ) (2024-03-12T12:40:08Z) - Expanding Expressiveness of Diffusion Models with Limited Data via
Self-Distillation based Fine-Tuning [24.791783885165923]
限られたデータセット上での拡散モデルの訓練は、限られた生成能力と表現性の観点から問題を引き起こす。
これらの課題に対処するために、SDFT(Self-Distillation for Fine-Tuning diffusion model)を提案する。
論文 参考訳(メタデータ) (2023-11-02T06:24:06Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。