論文の概要: Protecting Language Models Against Unauthorized Distillation through Trace Rewriting
- arxiv url: http://arxiv.org/abs/2602.15143v1
- Date: Mon, 16 Feb 2026 19:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.886823
- Title: Protecting Language Models Against Unauthorized Distillation through Trace Rewriting
- Title(参考訳): トレース書き換えによる無許可蒸留に対する言語モデル保護
- Authors: Xinhang Ma, William Yeoh, Ning Zhang, Yevgeniy Vorobeychik,
- Abstract要約: 知識蒸留の権威主義的利用は、フロンティアモデルの開発に費やされたかなりの努力とコストを不公平に活用する。
回答の正しさと意味的一貫性を保ちながら,教師の推論出力を動的に書き換える手法をいくつか導入する。
本実験は, 教師のパフォーマンスを維持・改善しつつ, 簡易な指導ベースリライト手法により, 強い消毒効果が得られることを示した。
- 参考スコア(独自算出の注目度): 31.05181251141126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a widely adopted technique for transferring capabilities from LLMs to smaller, more efficient student models. However, unauthorized use of knowledge distillation takes unfair advantage of the considerable effort and cost put into developing frontier models. We investigate methods for modifying teacher-generated reasoning traces to achieve two objectives that deter unauthorized distillation: (1) \emph{anti-distillation}, or degrading the training usefulness of query responses, and (2) \emph{API watermarking}, which embeds verifiable signatures in student models. We introduce several approaches for dynamically rewriting a teacher's reasoning outputs while preserving answer correctness and semantic coherence. Two of these leverage the rewriting capabilities of LLMs, while others use gradient-based techniques. Our experiments show that a simple instruction-based rewriting approach achieves a strong anti-distillation effect while maintaining or even improving teacher performance. Furthermore, we show that our rewriting approach also enables highly reliable watermark detection with essentially no false alarms.
- Abstract(参考訳): 知識蒸留は、LLMからより小さく、より効率的な学生モデルへの伝達能力を広く採用する技術である。
しかし、知識蒸留の無許可使用は、フロンティアモデルの開発に費やされたかなりの労力とコストを不当に活用する。
本研究では,(1) 未認可蒸留を阻害する目的,(2) 学生モデルに検証可能なシグネチャを埋め込んだ(2) 質問応答のトレーニングの有用性を低下させる目的の2つを達成するために,教師が生成した推論トレースを修正する方法を検討する。
回答の正しさと意味的一貫性を保ちながら,教師の推論出力を動的に書き換える手法をいくつか導入する。
そのうちの2つはLSMの書き換え機能を利用しており、他のものは勾配に基づく技術を使っている。
本実験は, 教師のパフォーマンスを維持・改善しつつ, 簡易な指導ベースリライト手法により, 強い消毒効果が得られることを示した。
さらに,本手法により,事実上誤報のない高度に信頼性の高い透かし検出が可能となることを示す。
関連論文リスト
- AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - DOGe: Defensive Output Generation for LLM Protection Against Knowledge Distillation [49.58082402742583]
LLM(Large Language Models)は、大きな知的・経済的投資である。
LLMは知識蒸留(KD)によるモデル模倣を不注意に促進できる
本稿では,効果的なDefensive Output Generation(DOGe)戦略を提案する。
論文 参考訳(メタデータ) (2025-05-26T04:31:38Z) - Unified attacks to large language model watermarks: spoofing and scrubbing in unauthorized knowledge distillation [33.394877468499395]
非許可の知識蒸留における双方向攻撃を可能にする統合フレームワークとして,コントラスト復号型知識蒸留(CDG-KD)を提案する。
提案手法では, 学生モデルと弱透かし参照の出力を比較して, 劣化あるいは増幅された透かしテキストを抽出するために, コントラスト復号を用いる。
本研究は, 頑丈で鍛造不可能な透かし方式の開発において, 重要な必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-04-24T12:15:46Z) - UNDO: Understanding Distillation as Optimization [9.100811514331498]
UNDO: Understanding Distillation as Optimization frameworkを紹介します。
各イテレーションは、生徒の学習不足を直接対象とし、教師に調整された強化された合理性を提供する動機を与える。
様々な数学的・常識的推論タスクに関する実証的な評価は、我々の反復蒸留法UNDOが標準の1段階蒸留法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-03T12:18:51Z) - Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation? [75.99961894619986]
本稿では,学生モデルが知識蒸留により,透かしの継承を回避しつつ,教師モデルの能力を獲得することができるかどうかを考察する。
本稿では,未ターゲットおよび目標とするトレーニングデータパラフレージング(UP,TP)による蒸留前除去と,推論時透かし中和(WN)による蒸留後除去の2つのカテゴリを提案する。
論文 参考訳(メタデータ) (2025-02-17T09:34:19Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。