論文の概要: DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection
- arxiv url: http://arxiv.org/abs/2601.08223v3
- Date: Wed, 21 Jan 2026 05:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:56:59.971211
- Title: DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection
- Title(参考訳): DNF: 大規模言語モデル知的財産保護のためのデュアルレイアネストフィンガープリント
- Authors: Zhenhua Xu, Yiran Zhao, Mengting Zhong, Dezhang Kong, Changting Lin, Tong Qiao, Meng Han,
- Abstract要約: 暗黙的な意味的トリガーとドメイン固有のスタイル的手がかりを結合することにより,階層的なバックドアを埋め込むブラックボックス手法を提案する。
Mistral-7B、LLaMA-3-8B-インストラクト、Falcon3-7B-インストラクトを通して、DNFは下流のユーティリティを保ちながら完璧な指紋活性化を実現する。
- 参考スコア(独自算出の注目度): 21.422855789542695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of large language models raises pressing concerns about intellectual property protection under black-box deployment. Existing backdoor-based fingerprints either rely on rare tokens -- leading to high-perplexity inputs susceptible to filtering -- or use fixed trigger-response mappings that are brittle to leakage and post-hoc adaptation. We propose \textsc{Dual-Layer Nested Fingerprinting} (DNF), a black-box method that embeds a hierarchical backdoor by coupling domain-specific stylistic cues with implicit semantic triggers. Across Mistral-7B, LLaMA-3-8B-Instruct, and Falcon3-7B-Instruct, DNF achieves perfect fingerprint activation while preserving downstream utility. Compared with existing methods, it uses lower-perplexity triggers, remains undetectable under fingerprint detection attacks, and is relatively robust to incremental fine-tuning and model merging. These results position DNF as a practical, stealthy, and resilient solution for LLM ownership verification and intellectual property protection.
- Abstract(参考訳): 大規模言語モデルの急速な成長は、ブラックボックス展開下での知的財産権保護に対する懸念を高めている。
既存のバックドアベースの指紋は、希少なトークン(フィルターの影響を受けやすい高精度な入力につながる)に依存するか、あるいは、漏洩やポストホック適応に脆弱な固定されたトリガー応答マッピングを使用する。
暗黙的なセマンティックトリガーとドメイン固有のスタイリスティックキューを結合することにより,階層的なバックドアを埋め込むブラックボックス手法である。
Mistral-7B、LLaMA-3-8B-インストラクタ、Falcon3-7B-インストラクタを通して、DNFは下流ユーティリティを保ちながら完璧な指紋活性化を実現する。
従来の方法と比較して、低いパープレキシティトリガーを使用し、指紋検出攻撃では検出不能であり、インクリメンタルな微調整やモデルマージに対して比較的堅牢である。
これらの結果は、DNFをLLMの所有権検証と知的財産保護のための実用的でステルス的でレジリエントなソリューションと位置づけている。
関連論文リスト
- Inhibitory Attacks on Backdoor-based Fingerprinting for Large Language Models [14.909356150499297]
本稿では,トークンフィルタ攻撃(TFA)と文検証攻撃(SVA)の2つの新しい指紋認証手法を提案する。
本手法は,アンサンブル性能を維持しつつ,指紋応答を効果的に抑制する手法である。
論文 参考訳(メタデータ) (2026-01-07T06:06:56Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - From Injection to Defense: Constructing Edit-Based Fingerprints for Large Language Models [28.393476667026523]
本稿では,ルールベースの多言語自然言語指紋(MNLF)を組み込んだ知識編集フレームワークRFEditを提案する。
RFEditはFingerprint Subspace-aware Fine-Tuning (FSFT)によって保護されている。
論文 参考訳(メタデータ) (2025-09-03T08:22:04Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - ImF: Implicit Fingerprint for Large Language Models [14.580290415247385]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。