論文の概要: PREE: Towards Harmless and Adaptive Fingerprint Editing in Large Language Models via Knowledge Prefix Enhancement
- arxiv url: http://arxiv.org/abs/2509.00918v1
- Date: Sun, 31 Aug 2025 16:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.462216
- Title: PREE: Towards Harmless and Adaptive Fingerprint Editing in Large Language Models via Knowledge Prefix Enhancement
- Title(参考訳): PreE:知識事前修正による大規模言語モデルにおける無害かつ適応的なフィンガープリント編集を目指して
- Authors: Xubin Yue, Zhenhua Xu, Wenpeng Xing, Jiahui Yu, Mohan Li, Meng Han,
- Abstract要約: ブラックボックスのフィンガープリント技術は、インクリメンタルな微調整の消去と特徴空間の防御という2つの課題に直面している。
最近の研究で、フィンガープリント領域におけるモデル編集には、明確な利点があることが判明した。
本稿では、革新的に$textbfPr$efix-$textbfe$nhanced Fingerprint $textbfE$diting Frameworkを提案する。
- 参考スコア(独自算出の注目度): 31.35718494215824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the intellectual property protection challenges in commercial deployment of large language models (LLMs), existing black-box fingerprinting techniques face dual challenges from incremental fine-tuning erasure and feature-space defense due to their reliance on overfitting high-perplexity trigger patterns. Recent work has revealed that model editing in the fingerprinting domain offers distinct advantages, including significantly lower false positive rates, enhanced harmlessness, and superior robustness. Building on this foundation, this paper innovatively proposes a $\textbf{Pr}$efix-$\textbf{e}$nhanced Fingerprint $\textbf{E}$diting Framework (PREE), which encodes copyright information into parameter offsets through dual-channel knowledge edit to achieve covert embedding of fingerprint features. Experimental results demonstrate that the proposed solution achieves the 90\% trigger precision in mainstream architectures including LLaMA-3 and Qwen-2.5. The minimal parameter offset (change rate < 0.03) effectively preserves original knowledge representation while demonstrating strong robustness against incremental fine-tuning and multi-dimensional defense strategies, maintaining zero false positive rate throughout evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)の商業展開における知的財産保護の課題に対処するため、既存のブラックボックスフィンガープリント技術は、高パープレキシティトリガーパターンの過度な適合に依存するため、インクリメンタルな微調整の消去と特徴空間の防御という2つの課題に直面している。
近年の研究では、フィンガープリント領域におけるモデル編集には、偽陽性率の大幅な低下、無害性の向上、堅牢性の向上など、明確な利点があることが明らかになっている。
この基盤を基盤として,本論文では,指紋特徴の隠蔽的な埋め込みを実現するために,デュアルチャネル知識編集を通じて,著作権情報をパラメータオフセットにエンコードする$\textbf{Pr}$efix-$\textbf{e}$nhanced Fingerprint $\textbf{E}$diting Framework (PREE)を革新的に提案する。
実験の結果,LLaMA-3 や Qwen-2.5 などの主流アーキテクチャでは,90% のトリガ精度が得られた。
最小パラメータオフセット (チェンジレート < 0.03) は、インクリメンタルな微調整と多次元防衛戦略に対して強い堅牢性を証明し、評価全体を通じて偽陽性率をゼロに保ちながら、元の知識表現を効果的に維持する。
関連論文リスト
- From Evaluation to Defense: Constructing Persistent Edit-Based Fingerprints for Large Language Models [40.79429403341075]
命令チューニングを通じてLLM(Large Language Models)に特殊な指紋を注入することは、一般的なIP保護技術である。
我々は知識編集が指紋注入に適した軽量な代替手段であると主張している。
指紋サブスペースの更新を制限することにより,指紋の劣化を低減するFingerprint Subspace-aware Fine-Tuning (FSFT)を提案する。
論文 参考訳(メタデータ) (2025-09-03T08:22:04Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - EditMF: Drawing an Invisible Fingerprint for Your Large Language Models [11.691985114214162]
EditMFはトレーニング不要なフィンガープリントのパラダイムであり、最小の計算オーバーヘッドで非常に受け入れ難いフィンガープリントの埋め込みを実現する。
EditMF は,LoRA ベースの指紋認証をはるかに超越した堅牢性を提供しながら,認識不能なモデルの性能損失と高い認識性を兼ね備えていることを示す。
論文 参考訳(メタデータ) (2025-08-12T10:52:48Z) - FPEdit: Robust LLM Fingerprinting through Localized Knowledge Editing [9.351260848685229]
FPEditは、モデル重みのスパース部分を変更することによって、意味的に一貫性のある自然言語の指紋を注入する、新しい知識編集フレームワークである。
実験によると、FPEditは95ドルから100%の指紋保持を実現している。
FPEditは、32GB以下のGPUメモリを使用して、10個の指紋ペアを10分以内でLLaMA2-7Bに埋め込むことができる。
論文 参考訳(メタデータ) (2025-08-04T06:00:22Z) - NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - ImF: Implicit Fingerprint for Large Language Models [14.580290415247385]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。