論文の概要: DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2603.07835v1
- Date: Sun, 08 Mar 2026 22:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.314857
- Title: DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation
- Title(参考訳): DistillGuard: LLMの知識蒸留に対する防御評価
- Authors: Bo Jiang,
- Abstract要約: 我々は,3つの防衛カテゴリー – 出力摂動,データ中毒,情報スロットリング – の分類を導入する。
教師としてQwen3-14B,学生としてQwen2.5-7B-インストラクトを用いた標準化パイプラインを用いて,9つの防御構成を評価する。
以上の結果から,ナイーブ攻撃に対する同種の蒸留処理では,ほとんどの出力レベル防衛は驚くほど効果がないことが明らかとなった。
- 参考スコア(独自算出の注目度): 5.647839536820347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation from proprietary LLM APIs poses a growing threat to model providers, yet defenses against this attack remain fragmented and unevaluated. We present DistillGuard, a framework for systematically evaluating output-level defenses against LLM knowledge distillation. We introduce a taxonomy of three defense categories -- output perturbation, data poisoning, and information throttling -- and evaluate nine defense configurations using a standardized pipeline with Qwen3-14B as teacher and Qwen2.5-7B-Instruct as student across three benchmarks (MATH-500, HumanEval+, MT-Bench). Our results reveal that, in a same-family distillation setting against a naive attacker, most output-level defenses are surprisingly ineffective: paraphrasing-based perturbation barely degrades distilled student quality, and data poisoning primarily impairs conversational fluency while leaving task-specific capabilities intact. Only chain-of-thought removal substantially impairs mathematical reasoning (31.4\% vs.\ 67.8\% baseline), though code generation remains unaffected. These findings demonstrate that the effectiveness of distillation defenses is highly task-dependent and that current output-level approaches are insufficient to broadly prevent knowledge theft.
- Abstract(参考訳): プロプライエタリなLLM APIからの知識の蒸留は、モデルプロバイダに対する脅威が増大する一方で、この攻撃に対する防御は断片化され、未評価のままである。
本稿では, LLM の知識蒸留に対する出力レベル防衛を体系的に評価するフレームワークである DistillGuard について述べる。
そこで本研究では,Qwen3-14Bを教師とし,Qwen2.5-7B-Instructを学生として3つのベンチマーク(MATH-500, HumanEval+, MT-Bench)で評価した。
パラフレージングに基づく摂動は, 学生の生活の質をほとんど損なうことなく, データ中毒は, タスク固有の能力をそのまま残しながら, 会話の流速を損なう。
チェーン・オブ・シークレットの除去だけが数学的推論を実質的に損なう(31.4\%対)。
67.8\%のベースラインだが、コード生成には影響はない。
これらの結果から, 蒸留防衛の有効性はタスク依存度が高く, 現状のアウトプットレベルアプローチでは知識盗難を広範囲に防ぐには不十分であることが示唆された。
関連論文リスト
- Agentic Knowledge Distillation: Autonomous Training of Small Language Models for SMS Threat Detection [0.4899818550820574]
エージェント知識蒸留は、人間の介入なしにセキュリティタスクにデプロイ可能な、より小さな学生SLMを微調整する強力なLLMで構成されている。
SMSスパム・スマイッシング検出における教師の役割における4つのLLMと2人の学生のSLMを比較した。
以上の結果から,教師のLLMによって性能が大きく異なり,94.31%の精度と96.25%のリコールが達成された。
論文 参考訳(メタデータ) (2026-02-11T13:57:56Z) - Towards Distillation-Resistant Large Language Models: An Information-Theoretic Perspective [52.25797439810419]
既存の防衛はテキストベースの蒸留のみに重点を置いており、重要なロジットベースの蒸留はほとんど探索されていない。
我々は,教師のロジットと接地木ラベルに条件付けされた入力クエリ間の条件付き相互情報(CMI)を用いて,教師出力の蒸留関連情報を特徴付ける。
我々は,CMIにインスパイアされた抗蒸留目標を導出し,この変換を最適化し,出力ユーティリティを保ちながら蒸留関連情報を効果的に除去する。
論文 参考訳(メタデータ) (2026-02-03T11:16:59Z) - SecureLearn - An Attack-agnostic Defense for Multiclass Machine Learning Against Data Poisoning Attacks [0.0]
既存の防御は、主に特定の中毒攻撃を軽減するために設計されているか、あるいは特定のMLアルゴリズムに適合している。
本稿では,毒殺からマルチクラスモデルを守るための2層アタック・アグノースティック・ディフェンスであるSecureLearnを提案する。
ニューラルネットワークでは、SecureLearnが97%のリコールとF1スコアを達成した。
論文 参考訳(メタデータ) (2025-10-25T12:35:45Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - DOGe: Defensive Output Generation for LLM Protection Against Knowledge Distillation [49.58082402742583]
LLM(Large Language Models)は、大きな知的・経済的投資である。
LLMは知識蒸留(KD)によるモデル模倣を不注意に促進できる
本稿では,効果的なDefensive Output Generation(DOGe)戦略を提案する。
論文 参考訳(メタデータ) (2025-05-26T04:31:38Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Turning Generative Models Degenerate: The Power of Data Poisoning Attacks [10.36389246679405]
悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。
本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。
本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
論文 参考訳(メタデータ) (2024-07-17T03:02:15Z) - Improved Certified Defenses against Data Poisoning with (Deterministic)
Finite Aggregation [122.83280749890078]
本報告では, 一般中毒に対する予防的対策として, フィニット・アグリゲーション(Finite Aggregation)を提案する。
トレーニングセットを直接非結合部分集合に分割するDPAとは対照的に、我々の方法はまず、トレーニングセットをより小さな非結合部分集合に分割する。
我々は、決定論的および集約的認証された防御設計をブリッジして、我々の方法の代替的な見解を提供する。
論文 参考訳(メタデータ) (2022-02-05T20:08:58Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。