論文の概要: Antidistillation Fingerprinting
- arxiv url: http://arxiv.org/abs/2602.03812v1
- Date: Tue, 03 Feb 2026 18:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.633603
- Title: Antidistillation Fingerprinting
- Title(参考訳): 消毒フィンガープリント
- Authors: Yixuan Even Xu, John Kirchenbauer, Yash Savani, Asher Trockman, Alexander Robey, Tom Goldstein, Fei Fang, J. Zico Kolter,
- Abstract要約: 本稿では, 学生の学習力学と指紋認証の目的を一致させる原則的アプローチとして, 抗蒸留フィンガープリント (ADFP) を導入する。
ADFPは、学生モデルのアーキテクチャが未知であっても、最先端のベースラインよりも大幅に改善され、実用性への影響が最小限に抑えられた検出信頼性が向上する。
- 参考スコア(独自算出の注目度): 119.66677613290359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model distillation enables efficient emulation of frontier large language models (LLMs), creating a need for robust mechanisms to detect when a third-party student model has trained on a teacher model's outputs. However, existing fingerprinting techniques that could be used to detect such distillation rely on heuristic perturbations that impose a steep trade-off between generation quality and fingerprinting strength, often requiring significant degradation of utility to ensure the fingerprint is effectively internalized by the student. We introduce antidistillation fingerprinting (ADFP), a principled approach that aligns the fingerprinting objective with the student's learning dynamics. Building upon the gradient-based framework of antidistillation sampling, ADFP utilizes a proxy model to identify and sample tokens that directly maximize the expected detectability of the fingerprint in the student after fine-tuning, rather than relying on the incidental absorption of the un-targeted biases of a more naive watermark. Experiments on GSM8K and OASST1 benchmarks demonstrate that ADFP achieves a significant Pareto improvement over state-of-the-art baselines, yielding stronger detection confidence with minimal impact on utility, even when the student model's architecture is unknown.
- Abstract(参考訳): モデル蒸留により、フロンティア大言語モデル(LLM)の効率的なエミュレーションが可能になり、サードパーティの学生モデルが教師モデルの出力をトレーニングしたことを検知するための堅牢なメカニズムの必要性が生じる。
しかし、そのような蒸留を検出できる既存の指紋認証技術は、生成品質と指紋強度のトレードオフを強要するヒューリスティックな摂動に依存しており、しばしば学生が効果的に指紋を内部化するための実用性を著しく低下させる必要がある。
本稿では, 学生の学習力学と指紋認証の目的を一致させる原則的アプローチとして, 抗蒸留フィンガープリント (ADFP) を導入する。
ADFPは、抗蒸留サンプリングの勾配に基づくフレームワークを構築し、より単純な透かしの非ターゲットバイアスの偶発的吸収に頼るのではなく、より微調整後の学生の指紋の期待された検出可能性を直接最大化するトークンを、プロキシモデルを用いて識別し、サンプリングする。
GSM8KとOASST1ベンチマークの実験により、AFFPは最先端のベースラインよりも顕著なParetoの改善を実現し、学生モデルのアーキテクチャが不明な場合でも、実用性に最小限の影響でより強力な検出信頼性が得られることが示された。
関連論文リスト
- FPEdit: Robust LLM Fingerprinting through Localized Parameter Editing [24.648168413166673]
FPEditは、知識編集を利用してセマンティック・コヒーレントな自然言語の指紋を注入する新しいフレームワークである。
FPEditは,全パラメータの微調整とパラメータ効率の両面において,95-100%の指紋保持を実現する。
FPEditは、30GB未満のGPUメモリを使用して、LLaMA2-7Bに10個の指紋ペアを2分以内で埋め込むことができる。
論文 参考訳(メタデータ) (2025-08-04T06:00:22Z) - MEraser: An Effective Fingerprint Erasure Approach for Large Language Models [27.416202744267594]
大規模言語モデル(LLM)は、様々な分野に広まり、モデルの所有と知的財産保護に関する重要な懸念を提起している。
モデル性能を維持しつつ, LLMからバックドアベースの指紋を効果的に除去する手法であるMismatched Eraser(MEraser)を提案する。
論文 参考訳(メタデータ) (2025-06-14T15:48:53Z) - ImF: Implicit Fingerprint for Large Language Models [14.580290415247385]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Latent fingerprint enhancement for accurate minutiae detection [8.996826918574463]
本稿では,GAN(Generative Adversary Network)を用いてLFE(Latent Fingerprint Enhancement)を再定義する手法を提案する。
生成過程の微妙な情報を直接最適化することにより、このモデルは、地味な事例に対して例外的な忠実さを示す強化された潜伏指紋を生成する。
筆者らのフレームワークは, 微小な位置と配向場を統合し, 局所的および構造的指紋の特徴の保存を確実にする。
論文 参考訳(メタデータ) (2024-09-18T08:35:31Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z) - Responsible Disclosure of Generative Models Using Scalable
Fingerprinting [70.81987741132451]
深層生成モデルは質的に新しいパフォーマンスレベルを達成した。
この技術がスプーフセンサーに誤用され、ディープフェイクを発生させ、大規模な誤情報を可能にするという懸念がある。
最先端のジェネレーションモデルを責任を持って公開することで、研究者や企業がモデルに指紋を刻むことができます。
論文 参考訳(メタデータ) (2020-12-16T03:51:54Z) - Artificial Fingerprinting for Generative Models: Rooting Deepfake
Attribution in Training Data [64.65952078807086]
光現実性画像生成は、GAN(Generative Adversarial Network)のブレークスルーにより、新たな品質レベルに達した。
しかし、このようなディープフェイクのダークサイド、すなわち生成されたメディアの悪意ある使用は、視覚的誤報に関する懸念を提起する。
我々は,モデルに人工指紋を導入することによって,深度検出の積極的な,持続可能なソリューションを模索する。
論文 参考訳(メタデータ) (2020-07-16T16:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。