論文の概要: Towards Distillation-Resistant Large Language Models: An Information-Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2602.03396v1
- Date: Tue, 03 Feb 2026 11:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.412998
- Title: Towards Distillation-Resistant Large Language Models: An Information-Theoretic Perspective
- Title(参考訳): 蒸留抵抗性大言語モデルに向けて:情報理論の視点から
- Authors: Hao Fang, Tianyi Zhang, Tianqu Zhuang, Jiawei Kong, Kuofeng Gao, Bin Chen, Leqi Liang, Shu-Tao Xia, Ke Xu,
- Abstract要約: 既存の防衛はテキストベースの蒸留のみに重点を置いており、重要なロジットベースの蒸留はほとんど探索されていない。
我々は,教師のロジットと接地木ラベルに条件付けされた入力クエリ間の条件付き相互情報(CMI)を用いて,教師出力の蒸留関連情報を特徴付ける。
我々は,CMIにインスパイアされた抗蒸留目標を導出し,この変換を最適化し,出力ユーティリティを保ちながら蒸留関連情報を効果的に除去する。
- 参考スコア(独自算出の注目度): 52.25797439810419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proprietary large language models (LLMs) embody substantial economic value and are generally exposed only as black-box APIs, yet adversaries can still exploit their outputs to extract knowledge via distillation. Existing defenses focus exclusively on text-based distillation, leaving the important logit-based distillation largely unexplored. In this work, we analyze this problem and present an effective solution from an information-theoretic perspective. We characterize distillation-relevant information in teacher outputs using the conditional mutual information (CMI) between teacher logits and input queries conditioned on ground-truth labels. This quantity captures contextual information beneficial for model extraction, motivating us to defend distillation via CMI minimization. Guided by our theoretical analysis, we propose learning a transformation matrix that purifies the original outputs to enhance distillation resistance. We further derive a CMI-inspired anti-distillation objective to optimize this transformation, which effectively removes distillation-relevant information while preserving output utility. Extensive experiments across multiple LLMs and strong distillation algorithms demonstrate that the proposed method significantly degrades distillation performance while preserving task accuracy, effectively protecting models' intellectual property.
- Abstract(参考訳): プロプライエタリな大規模言語モデル(LLM)は経済的価値を具現化しており、一般にブラックボックスAPIとしてのみ公開されているが、敵は蒸留を通じて知識を抽出するためにその出力を利用することができる。
既存の防衛はテキストベースの蒸留のみに重点を置いており、重要なロジットベースの蒸留はほとんど探索されていない。
本研究では,この問題を分析し,情報理論の観点から有効な解法を提案する。
我々は,教師のロジットと接地木ラベルに条件付けされた入力クエリ間の条件付き相互情報(CMI)を用いて,教師出力の蒸留関連情報を特徴付ける。
この量は、モデル抽出に有用な文脈情報を取り込み、CMIの最小化による蒸留の防衛を動機付けます。
そこで我々は, 蒸留抵抗を高めるために, 元の出力を浄化する変換行列の学習を提案する。
さらに,CMIにインスパイアされた抗蒸留目標を導出し,この変換を最適化し,出力ユーティリティを維持しながら蒸留関連情報を効果的に除去する。
複数のLLM, 強い蒸留アルゴリズムを用いた大規模実験により, 提案手法は, 作業精度を維持しながら蒸留性能を著しく低下させ, モデルの知的特性を効果的に保護することを示した。
関連論文リスト
- Quantification of Large Language Model Distillation [22.680566179355335]
モデル蒸留の評価と定量化のための枠組みを提案する。
本手法は, 同一性認知の矛盾を同定し, 同一性関連情報の知覚・表現方法の相違性を評価すること, そして, 同一性化の程度を測定するために, モデル間での多粒度応答類似性を解析することの2つの重要な側面に対処する。
論文 参考訳(メタデータ) (2025-01-22T03:57:52Z) - Multi-perspective Contrastive Logit Distillation [12.589031892370809]
本稿では,ロジット蒸留の性能と有効性を大幅に向上させる,新規で効率的なロジット蒸留法であるマルチパースペクティブ・コントラスト・ロジット蒸留(MCLD)を導入する。
MCLDは、CIFAR-100、ImageNet、Tiny-ImageNet、STL-10など、複数のデータセットにまたがって、画像分類、転送学習タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-16T04:08:41Z) - Knowledge Distillation via Query Selection for Detection Transformer [25.512519971607237]
本稿では, 知識蒸留を利用したDETR圧縮の課題について述べる。
DETRのパフォーマンスの重要な側面は、オブジェクト表現を正確に解釈するためのクエリへの依存である。
我々の視覚分析から,前景要素に着目した強相関クエリが蒸留結果の向上に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-09-10T11:49:28Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Mind the Gap in Distilling StyleGANs [100.58444291751015]
StyleGANファミリは、非条件生成のためのGAN(Generative Adversarial Networks)として最も人気のあるものの一つである。
本稿では,StyleGAN-likeアーキテクチャの蒸留に関する総合的研究について述べる。
論文 参考訳(メタデータ) (2022-08-18T14:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。