論文の概要: Asking Back: Interaction-Layer Antidistillation Watermarks
- arxiv url: http://arxiv.org/abs/2605.16462v1
- Date: Fri, 15 May 2026 08:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.494212
- Title: Asking Back: Interaction-Layer Antidistillation Watermarks
- Title(参考訳): 振り返ってみた: インターオペラビリティー・レイヤーの消毒水標
- Authors: Guang Yang, Amir Ghasemian, Fengchen Liu, Zhong Wang, Ninareh Mehrabi, Homa Hosseinmardi,
- Abstract要約: 既存の防御は教師の出力トークンを操作する。
最近の研究によると、悪意のない攻撃者は、根底にある知識を失うことなく、これらの信号を取り除くことができる。
相互作用層型抗蒸留透かしを提案する。
- 参考スコア(独自算出の注目度): 7.826668598190874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting unauthorized knowledge distillation from a deployed LLM API is hard because the defender controls neither the attacker's training pipeline nor the next-token logits. Existing defenses operate on the teacher's output tokens -- biasing the next-token distribution (green-list watermarks, cryptographic schemes, antidistillation sampling) or rewriting outputs after generation. Recent work shows a paraphrasing attacker can strip these signals without losing the underlying knowledge. We propose interaction-layer antidistillation watermarks, which move the trace one layer higher, into the teacher's interaction behavior: the defender wraps the teacher with a system prompt that intermittently induces a behavioral marker -- an explicit follow-up question, a low-frequency variant, or a declarative restatement. An oblivious distiller inherits the behavior, and the defender audits via black-box queries with a human-validated LLM-as-judge (Cohen's kappa = 0.84/0.78 on strong/style rubrics). Across 63 LoRA-distilled students under a Llama-3.3-70B-Instruct teacher (35,343 judged samples), behavioral watermarks transfer at 88.9% (Gemma) / 80.9% (OLMo) / 45.2% (Qwen) relative fidelity (H1, H2). Under non-adaptive DIPPER paraphrasing, robustness decomposes into a teacher-self ceiling (about 66.4%) and student-relative retention of 21-112%, with OLMo preserving the watermark above the teacher itself (H3, F-Amp). Low-density (about 20%) explicit and implicit declarative variants transfer above per-family baseline (H4, F-Style). An N=20 in-lab study (pre-registered Latin-square) shows all marker variants within 0.22 Likert step of baseline; TOST, Friedman, and Bonferroni-Wilcoxon support H5. The interaction layer is a viable design locus for antidistillation watermarking, complementary to token-, model-, and reasoning-trace-layer defenses.
- Abstract(参考訳): 攻撃者のトレーニングパイプラインも、次の警告ログもコントロールできないため、デプロイされたLLM APIからの無許可の知識蒸留の検出は難しい。
既存の防御は教師の出力トークン(グリーンリストの透かし、暗号スキーム、アンチ蒸留サンプリング)を偏り、生成後に出力を書き換える。
最近の研究は、パラフレーズ攻撃者が基礎となる知識を失うことなくこれらの信号を除去できることを示している。
そこで本稿では,教師の対話行動において,教師の対話行動に一段高めのトレーサを移動させる「相互作用層防汚透かし」を提案する。
余計な蒸留器がその振る舞いを継承し、ディフェンダーはブラックボックスクエリを通じて人間公認のLSM-as-judge(コーエンのカッパ=0.84/0.78)で監査する。
Llama-3.3-70B-Instruct teacher (35,343例) による63名以上のLoRA蒸留学生が88.9% (Gemma) / 80.9% (OLMo) / 45.2% (Qwen) の相対忠実度 (H1, H2) で電子透かしを転送した。
非適応的DIPPER言い換えでは、ロバスト性は教師自身の天井(約66.4%)に分解され、21-112%の学生が保持され、OLMOは教師自身の上にある透かし(H3, F-Amp)を保持する。
低密度(約20%)の明示的および暗黙的な宣言的変異は、家族ごとのベースライン(H4, F-Style)の上に移動する。
N=20 in-lab study (pre-registered Latin-square) では、ベースラインの 0.22 Likert ステップ内のすべてのマーカー変異が示され、TOST、Friedman、Bonferroni-Wilcoxon は H5 をサポートする。
相互作用層は、アンチ蒸留ウォーターマーキングのための実行可能な設計軌跡であり、トークン、モデル、および推論トラス層防御を補完する。
関連論文リスト
- Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information [22.436966302243565]
本稿では,学生と教師の相違を増す反自己蒸留法を提案する。
AntiSDはGRPOベースラインの精度を2倍から10倍にし、最終精度を最大11.5ポイント向上させる。
論文 参考訳(メタデータ) (2026-05-12T06:40:43Z) - DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation [5.647839536820347]
我々は,3つの防衛カテゴリー – 出力摂動,データ中毒,情報スロットリング – の分類を導入する。
教師としてQwen3-14B,学生としてQwen2.5-7B-インストラクトを用いた標準化パイプラインを用いて,9つの防御構成を評価する。
以上の結果から,ナイーブ攻撃に対する同種の蒸留処理では,ほとんどの出力レベル防衛は驚くほど効果がないことが明らかとなった。
論文 参考訳(メタデータ) (2026-03-08T22:38:30Z) - Entropy-Aware On-Policy Distillation of Language Models [36.60992451188347]
エントロピーを意識したオン・ポリシィ蒸留について紹介する。
我々のキーとなる考え方は、教師のエントロピーが高い場合、標準逆KL目標を前方KLに増強することである。
モデム探索精度とモデム探索精度のバランスを保ち、モデムの訓練効率を犠牲にしない。
論文 参考訳(メタデータ) (2026-03-07T07:26:18Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation? [75.99961894619986]
本稿では,学生モデルが知識蒸留により,透かしの継承を回避しつつ,教師モデルの能力を獲得することができるかどうかを考察する。
本稿では,未ターゲットおよび目標とするトレーニングデータパラフレージング(UP,TP)による蒸留前除去と,推論時透かし中和(WN)による蒸留後除去の2つのカテゴリを提案する。
論文 参考訳(メタデータ) (2025-02-17T09:34:19Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Deep Partition Aggregation: Provable Defense against General Poisoning
Attacks [136.79415677706612]
アドリアリン中毒は、分類器の試験時間挙動を損なうために訓練データを歪ませる。
毒殺攻撃に対する2つの新たな防御策を提案する。
DPAは一般的な中毒脅威モデルに対する認証された防御である。
SS-DPAはラベルフリップ攻撃に対する認証された防御である。
論文 参考訳(メタデータ) (2020-06-26T03:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。