論文の概要: The Distillation Game: Adaptive Attacks & Efficient Defenses
- arxiv url: http://arxiv.org/abs/2605.22737v2
- Date: Thu, 28 May 2026 16:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.532749
- Title: The Distillation Game: Adaptive Attacks & Efficient Defenses
- Title(参考訳): 蒸留ゲーム:アダプティブアタックと効果的な防御
- Authors: Youssef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri,
- Abstract要約: 蒸留攻撃はモデルプロバイダのデプロイメントトレードオフを生み出す。
実用性に制約のある教師と適応的な学生とのミニマックスゲームを通して、このトレードオフを研究する。
以上の結果から, 強い蒸留は止まらないことが示唆された。
- 参考スコア(独自算出の注目度): 40.56416448815563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distillation attacks create a deployment trade-off for model providers: the same outputs that make a model more useful can also make it easier to imitate. We study this trade-off through a minimax game between a utility-constrained teacher and an adaptive student. Our framework yields tractable one-sided response rules: an adaptive evaluation rule in which the student reweights high-value examples, and a teacher-side defense template that suppresses outputs most useful for distillation. From a cheap proxy for example value, we derive Product-of-Experts (PoE), a simple forward-pass-only defense that combines the teacher with a proxy student during generation. Empirically, adaptive evaluation reveals a large passive--adaptive gap: on state-of-the-art defenses, adaptive students recover substantially more capability than passive evaluation suggests on GSM8K and MATH. Under this stronger evaluation, the apparent robustness gap between expensive defenses and PoE narrows considerably, while PoE remains substantially cheaper and preserves higher-quality reasoning traces. Overall, our results suggest that strong distillation remains difficult to stop, and that progress on antidistillation should be judged against adaptive students rather than passive ones. Our code is available at: https://github.com/ysfalh/distillation-game.
- Abstract(参考訳): 蒸留攻撃は、モデルプロバイダに対するデプロイメントのトレードオフを生み出します。
実用性に制約のある教師と適応的な学生とのミニマックスゲームを通して、このトレードオフを研究する。
提案フレームワークは,高価値事例を再重み付けする適応的評価ルールと,蒸留に最も有用な出力を抑える教師側防衛テンプレートである。
例えば、安価なプロキシからProduct-of-Experts(PoE)を導出します。
GSM8KとMATHで提案される受動的評価よりも適応的評価が大幅に向上した。
この強い評価の下では、高価な防御とPoEの間の明らかな堅牢性ギャップは著しく狭まり、PoEは実質的に安価であり、高品質な推論トレースを保っている。
以上の結果から, 強い蒸留は停止し難いままであり, 受動的蒸留よりも適応的な学生に対して, 抗蒸留の進歩を判断すべきであると考えられた。
私たちのコードは、https://github.com/ysfalh/distillation-game.comで利用可能です。
関連論文リスト
- Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - SODA: Semi On-Policy Black-Box Distillation for Large Language Models [19.748920924563546]
大きな言語モデルに対するブラックボックスの知識蒸留は厳密なトレードオフをもたらす。
4つのコンパクトQwen2.5およびLlama-3モデルのセミ評価は、このセミオン政治パラダイムを検証する。
トレーニングを10倍速くし、27%のピークGPUメモリを消費し、対向不安定性を完全に排除しながら、この優れた蒸留品質を実現する。
論文 参考訳(メタデータ) (2026-04-04T21:38:22Z) - Dummy-Aware Weighted Attack (DAWA): Breaking the Safe Sink in Dummy Class Defenses [56.390980653401506]
ダミークラスベースの防御は、AutoAttackのような従来の評価戦略の下で大幅に過大評価されたロバスト性を達成する。
本研究では,ダミーラベルとダミーラベルの両方を同時に対象とする新たな評価手法であるダミー・アウェア・ウェイトド・アタック(DAWA)を提案する。
我々の研究は、この新たな防衛のクラスを評価するためのより信頼性の高いベンチマークを提供し、ロバストネス評価方法論の継続的な進化の必要性を強調します。
論文 参考訳(メタデータ) (2026-03-31T02:49:17Z) - OVD: On-policy Verbal Distillation [47.727229201069555]
On-policy Verbal Distillation (OVD) は、トークンレベルの確率マッチングを軌道マッチングに置き換えるメモリ効率の高いフレームワークである。
OVDは、言語フィードバックを持つ教師モデルからのオンライン蒸留を可能にしながら、メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2026-01-29T16:48:14Z) - Defense against Unauthorized Distillation in Image Restoration via Feature Space Perturbation [15.362169797479146]
適応特異値摂動(Adaptive Singular Value Perturbation、ASVP)は、画像復元モデルに適したランタイムディフェンスである。
これはトップク特異値を増幅し、構造化された高周波摂動を注入し、蒸留に必要なアライメントを乱す。
実験の結果、ASVPは生徒のPSNRを最大4dB減らし、SSIMを60-75%減らし、教師のパフォーマンスには何の影響も与えないことがわかった。
論文 参考訳(メタデータ) (2025-10-10T02:14:02Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples [2.0257616108612373]
対人スパース教師 (AST) は蒸留モデル盗難攻撃に対する堅牢な防御方法である。
提案手法は, 逆例を用いて教師モデルを訓練し, スパースロジット応答を生成し, 出力分布のエントロピーを増大させる。
論文 参考訳(メタデータ) (2024-03-08T09:43:27Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。