論文の概要: DOGe: Defensive Output Generation for LLM Protection Against Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2505.19504v1
- Date: Mon, 26 May 2025 04:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.172651
- Title: DOGe: Defensive Output Generation for LLM Protection Against Knowledge Distillation
- Title(参考訳): DOGe:知識蒸留に対するLLM保護のための防御出力生成
- Authors: Pingzhi Li, Zhen Tan, Huaizhi Qu, Huan Liu, Tianlong Chen,
- Abstract要約: LLM(Large Language Models)は、大きな知的・経済的投資である。
それらの効果は、知識蒸留(KD)によるモデル模倣を必然的に促進することができる
本稿では,LLMの出力挙動を微調整する,効率的かつ効率的なDefensive Output Generation(DOGe)戦略を提案する。
- 参考スコア(独自算出の注目度): 41.89669082791045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) represent substantial intellectual and economic investments, yet their effectiveness can inadvertently facilitate model imitation via knowledge distillation (KD).In practical scenarios, competitors can distill proprietary LLM capabilities by simply observing publicly accessible outputs, akin to reverse-engineering a complex performance by observation alone. Existing protective methods like watermarking only identify imitation post-hoc, while other defenses assume the student model mimics the teacher's internal logits, rendering them ineffective against distillation purely from observed output text. This paper confronts the challenge of actively protecting LLMs within the realistic constraints of API-based access. We introduce an effective and efficient Defensive Output Generation (DOGe) strategy that subtly modifies the output behavior of an LLM. Its outputs remain accurate and useful for legitimate users, yet are designed to be misleading for distillation, significantly undermining imitation attempts. We achieve this by fine-tuning only the final linear layer of the teacher LLM with an adversarial loss. This targeted training approach anticipates and disrupts distillation attempts during inference time. Our experiments show that, while preserving or even improving the original performance of the teacher model, student models distilled from the defensively generated teacher outputs demonstrate catastrophically reduced performance, demonstrating our method's effectiveness as a practical safeguard against KD-based model imitation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識蒸留(KD)によるモデル模倣を必然的に促進することができる。
現実的なシナリオでは、競合は、単に公開可能な出力を観察することで、観測だけで複雑なパフォーマンスをリバースエンジニアリングするように、独自のLCM機能を蒸留することができる。
ウォーターマーキングのような既存の保護法は、模擬後の模倣のみを識別するが、他の防御法では、学生モデルは教師の内部のロジットを模倣し、観察された出力テキストから純粋に蒸留に対して効果がないと仮定している。
本稿では,API ベースのアクセスの現実的な制約の中で LLM を積極的に保護するという課題に直面する。
本稿では,LLMの出力挙動を微調整する,効率的かつ効率的なDefensive Output Generation(DOGe)戦略を提案する。
その出力は依然として正確であり、合法的なユーザーにとって有用であるが、蒸留の誤解を招くよう設計されており、模倣の試みを著しく損なう。
教師のLLMの最終線形層のみを逆方向の損失で微調整することでこれを実現できる。
このトレーニングアプローチは、推論時間中に蒸留の試みを予測し、破壊する。
本実験は,教師モデルの本来の性能を保ったり,改善させたりしながら,防衛的に生成された教師の出力から抽出した学生モデルは破滅的な性能低下を示し,本手法がKDモデル模倣に対する実用的保護効果を示すものであることを示した。
関連論文リスト
- Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Mitigating Memorization in LLMs using Activation Steering [3.5782765808288475]
LLM(Large Language Models)によるトレーニングデータの記憶は、プライバシー漏洩や著作権付きコンテンツの復活など、重大なリスクをもたらす。
モデルアクティベーションに直接介入するアクティベーションステアリング(Activation steering)は、LSMを操作するための有望なアプローチとして登場した。
論文 参考訳(メタデータ) (2025-03-08T03:37:07Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - Pre-training Distillation for Large Language Models: A Design Space Exploration [54.67324039434781]
予習蒸留は、大きな教師モデルからより小さな学生モデルに知識を移すことを目的としている。
我々は, プレトレーニング蒸留の設計空間を探索し, より良い構成を求める実験を行った。
我々は, 設計分野の探究が, 予修蒸留の今後の実践に影響を及ぼすことを期待している。
論文 参考訳(メタデータ) (2024-10-21T17:16:13Z) - A Fingerprint for Large Language Models [10.63985246068255]
大規模言語モデル(LLM)のための新しいブラックボックスフィンガープリント手法を提案する。
実験結果から,提案手法はPEFT攻撃に対するオーナシップ検証とロバスト性において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-01T12:25:42Z) - Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models [37.172662930947446]
言語モデル(LM)は、重大なプライバシーリスクを示す抽出攻撃に対して潜在的に脆弱である。
本稿では,事前学習したLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法である,最適パラメータによるプライバシ保護(POP)を提案する。
POPは、9つの分類と4つのダイアログベンチマークにまたがって、保留後の顕著なパフォーマンスを示し、最先端を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-06-20T08:12:49Z) - Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples [2.0257616108612373]
対人スパース教師 (AST) は蒸留モデル盗難攻撃に対する堅牢な防御方法である。
提案手法は, 逆例を用いて教師モデルを訓練し, スパースロジット応答を生成し, 出力分布のエントロピーを増大させる。
論文 参考訳(メタデータ) (2024-03-08T09:43:27Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。