論文の概要: ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models
- arxiv url: http://arxiv.org/abs/2601.08189v2
- Date: Tue, 20 Jan 2026 06:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 18:45:13.495668
- Title: ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models
- Title(参考訳): ForgetMark: 言語モデルにおけるターゲット未学習によるステルスフィンガープリントの埋め込み
- Authors: Zhenhua Xu, Haobo Zhang, Zhebo Wang, Qichen Liu, Haitao Xu, Wenpeng Xing, Meng Han,
- Abstract要約: textscForgetMarkはステルスな指紋認証フレームワークで、対象とする未学習を通じて証明をエンコードする。
アシスタントモデルと予測エントロピーランキングを備えたコンパクトで可読なキー-バリューセットを構築し、その後、軽量のLoRAアダプタを訓練して、一般的な機能を保ちながらキーの元の値を抑制する。
- 参考スコア(独自算出の注目度): 21.330293192156596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing invasive (backdoor) fingerprints suffer from high-perplexity triggers that are easily filtered, fixed response patterns exposed by heuristic detectors, and spurious activations on benign inputs. We introduce \textsc{ForgetMark}, a stealthy fingerprinting framework that encodes provenance via targeted unlearning. It builds a compact, human-readable key--value set with an assistant model and predictive-entropy ranking, then trains lightweight LoRA adapters to suppress the original values on their keys while preserving general capabilities. Ownership is verified under black/gray-box access by aggregating likelihood and semantic evidence into a fingerprint success rate. By relying on probabilistic forgetting traces rather than fixed trigger--response patterns, \textsc{ForgetMark} avoids high-perplexity triggers, reduces detectability, and lowers false triggers. Across diverse architectures and settings, it achieves 100\% ownership verification on fingerprinted models while maintaining standard performance, surpasses backdoor baselines in stealthiness and robustness to model merging, and remains effective under moderate incremental fine-tuning. Our code and data are available at \href{https://github.com/Xuzhenhua55/ForgetMark}{https://github.com/Xuzhenhua55/ForgetMark}.
- Abstract(参考訳): 既存の侵襲的な(バックドアの)指紋は、簡単にフィルタリングできる高難易度トリガー、ヒューリスティック検出器によって露出される固定された応答パターン、良心的な入力に対する刺激的なアクティベーションに悩まされる。
ターゲット未学習による証明を符号化するステルスなフィンガープリントフレームワークである \textsc{ForgetMark} を紹介した。
アシスタントモデルと予測エントロピーランキングを備えたコンパクトで可読なキー-バリューセットを構築し、その後、軽量のLoRAアダプタを訓練して、一般的な機能を保ちながらキーの元の値を抑制する。
オーナーシップは、可能性と意味的な証拠を指紋の成功率に集約することで、ブラック/グレイボックスアクセスの下で検証される。
固定されたトリガ応答パターンではなく、確率論的にトレースを忘れることに頼ることで、 \textsc{ForgetMark}は高パープレキシティトリガを回避し、検出性を低減し、偽トリガを下げる。
さまざまなアーキテクチャや設定にわたって、標準的なパフォーマンスを維持しながら、指紋付きモデルに対する100%のオーナシップ検証を達成し、モデルマージに対するステルスネスと堅牢性においてバックドアベースラインを越え、段階的なインクリメンタルな微調整の下でも有効である。
私たちのコードとデータは、 \href{https://github.com/Xuzhenhua55/ForgetMark}{https://github.com/Xuzhenhua55/ForgetMark}で公開されています。
関連論文リスト
- DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection [21.422855789542695]
暗黙的な意味的トリガーとドメイン固有のスタイル的手がかりを結合することにより,階層的なバックドアを埋め込むブラックボックス手法を提案する。
Mistral-7B、LLaMA-3-8B-インストラクト、Falcon3-7B-インストラクトを通して、DNFは下流のユーティリティを保ちながら完璧な指紋活性化を実現する。
論文 参考訳(メタデータ) (2026-01-13T05:05:37Z) - EverTracer: Hunting Stolen Large Language Models via Stealthy and Robust Probabilistic Fingerprint [22.154946163092117]
EverTracerは、ステルスで堅牢なモデルプロファイランストレースを保証する新しいグレーボックスフィンガープリントフレームワークである。
EverTracerは、最初の防衛目的でメンバーシップ推論アタック(MIAs)を再利用した。
フィンガープリント・インジェクション(Fingerprint Injection)は、検出可能なアーティファクトを含まない自然言語データ上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-09-03T06:40:57Z) - Scalable Fingerprinting of Large Language Models [42.65365809809273]
我々はPerinucleus sampleと呼ばれる新しい手法を導入し、スケーラブルで永続的で無害な指紋を生成する。
この手法により,Llama-3.1-8Bモデルに24,576個の指紋を付加できることを示した。
論文 参考訳(メタデータ) (2025-02-11T18:43:07Z) - Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique [2.7174461714624805]
大規模言語モデル(LLM)の盗難や誤用に対する懸念が高まり、効果的な指紋認証の必要性が高まっている。
指紋の透明性、効率性、永続性、ロバスト性、非偽造性という5つの重要な特性を定義します。
我々は,指紋の完全性を維持しつつ,認証された所有権の証明を提供する新しい指紋認証フレームワークを導入する。
論文 参考訳(メタデータ) (2024-07-15T16:38:56Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder [50.1394620328318]
既存のバックドア防御手法では、いくつかのバリデーションデータとモデルパラメータにアクセスする必要があることが多い。
Masked AutoEncoder (BDMAE) を用いたブラインドバックドアディフェンスの提案
BDMAEは、画像の構造的類似性と、テスト画像とMAE復元の間のラベルの整合性を用いて、可能な局所的なトリガを検出する。
論文 参考訳(メタデータ) (2023-03-27T19:23:33Z) - Neural network fragile watermarking with no model performance
degradation [28.68910526223425]
モデル性能の劣化を伴わない新しいニューラルネットワーク脆弱な透かしを提案する。
実験の結果,提案手法はモデル性能劣化を伴わずに,悪質な微調整を効果的に検出できることが示唆された。
論文 参考訳(メタデータ) (2022-08-16T07:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。