論文の概要: Protecting the Trace: A Principled Black-Box Approach Against Distillation Attacks
- arxiv url: http://arxiv.org/abs/2604.23238v1
- Date: Sat, 25 Apr 2026 10:22:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.220319
- Title: Protecting the Trace: A Principled Black-Box Approach Against Distillation Attacks
- Title(参考訳): 微量物を保護する: 蒸留攻撃に対するブラックボックスの原則的アプローチ
- Authors: Max Hartman, Vidhata Jayaraman, Moulik Choraria, Lav R. Varshney,
- Abstract要約: 抗菌法は,教師のパフォーマンスを維持しつつ,下流の学生モデル学習を阻害する原因となる推理の痕跡を汚染することを目的としている。
現在の技術では理論的な根拠が欠如しており、グラデーションベースの攻撃では、重い微調整や生徒モデルプロキシへのアクセスが要求される。
本稿では,教師の推論に重きを置き,効率的なブラックボックス法であるttexttTraceGuardを提案する。
- 参考スコア(独自算出の注目度): 12.75752756558549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier models push the boundaries of what is learnable at extreme computational costs, yet distillation via sampling reasoning traces exposes closed-source frontier models to adversarial third parties who can bypass their guardrails and misappropriate their capabilities, raising safety, security, and intellectual privacy concerns. To address this, there is growing interest in building antidistillation methods, which aim to poison reasoning traces to hinder downstream student model learning while maintaining teacher performance. However, current techniques lack theoretical grounding, requiring either heavy fine-tuning or access to student model proxies for gradient based attacks, and often lead to a significant teacher performance degradation. In this work, we present a theoretical formulation of antidistillation as a Stackelberg game, grounding a problem that has so far largely been approached heuristically. Guided by the desired design properties our formulation reveals, we propose \texttt{TraceGuard}, an efficient, post-generation black-box method to poison sentences with high importance for teacher reasoning. Our work offers a scalable solution to share model insights safely, ensuring that the advancement of reasoning capabilities does not come at the cost of intellectual privacy or AI safety alignment.
- Abstract(参考訳): フロンティアモデルは、極端な計算コストで学べるものの境界を押し上げるが、サンプリング推論トレースによる蒸留は、ガードレールをバイパスし、その能力を不適切なものにできる敵の第三者に、クローズドソースフロンティアモデルを公開する。
これを解決するため,教師のパフォーマンスを維持しつつ,下流の学生モデル学習を阻害する原因となる原因究明の痕跡を汚染することを目的とした消毒法の構築への関心が高まっている。
しかし、現在の手法では理論的な根拠が欠如しており、厳密な微調整や勾配に基づく攻撃のための生徒モデルプロキシへのアクセスが必要であり、しばしば教師のパフォーマンスが著しく低下する。
本研究では,スタックルベルグゲームとして反蒸留の理論的定式化を提案し,これまで主にヒューリスティックにアプローチしてきた問題を解いた。
所望のデザイン特性に導かれ, 教師の推論に重きを置き, 効率的なブラックボックス法である texttt{TraceGuard} を提案する。
私たちの仕事は、モデルの洞察を安全に共有するためのスケーラブルなソリューションを提供し、推論能力の進歩が、知的プライバシやAIの安全性アライメントの犠牲にならないようにします。
関連論文リスト
- Protecting Language Models Against Unauthorized Distillation through Trace Rewriting [31.05181251141126]
知識蒸留の権威主義的利用は、フロンティアモデルの開発に費やされたかなりの努力とコストを不公平に活用する。
回答の正しさと意味的一貫性を保ちながら,教師の推論出力を動的に書き換える手法をいくつか導入する。
本実験は, 教師のパフォーマンスを維持・改善しつつ, 簡易な指導ベースリライト手法により, 強い消毒効果が得られることを示した。
論文 参考訳(メタデータ) (2026-02-16T19:40:07Z) - Beyond Memorization: Gradient Projection Enables Selective Learning in Diffusion Models [3.4064487905075294]
大規模テキスト・画像拡散モデルの記憶化は、セキュリティと知的財産権の重大なリスクをもたらす。
概念レベルの機能排除の厳格な要件を強制するために設計されたグラディエント・プロジェクション・フレームワークを導入する。
我々のアプローチは、IPセーフでプライバシ保護された生成AIのための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-12-12T00:50:38Z) - How to Backdoor the Knowledge Distillation [10.478504819079548]
バックドアトリガを組み込んだ逆例を用いて, 蒸留データセットを戦略的に有害化する新たな攻撃手法を提案する。
この技術は、教師モデルの整合性を保ちながら、生徒モデルのステルスな妥協を可能にする。
本研究は,未認識の脆弱性を明らかにし,知識蒸留プロセスの確保を目的とした今後の研究の道を開くものである。
論文 参考訳(メタデータ) (2025-04-30T05:19:23Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Model Mimic Attack: Knowledge Distillation for Provably Transferable Adversarial Examples [1.1820990818670631]
この研究は、分類ニューラルネットワークに対する知識蒸留に基づく攻撃の成功に関する証明可能な保証を提供する最初のものである。
学生モデルに十分な学習能力がある場合、教師モデルに対する攻撃は、有限個の蒸留イテレーションで見つかることが保証される。
論文 参考訳(メタデータ) (2024-10-21T11:06:56Z) - Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples [2.0257616108612373]
対人スパース教師 (AST) は蒸留モデル盗難攻撃に対する堅牢な防御方法である。
提案手法は, 逆例を用いて教師モデルを訓練し, スパースロジット応答を生成し, 出力分布のエントロピーを増大させる。
論文 参考訳(メタデータ) (2024-03-08T09:43:27Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。