論文の概要: From Injection to Defense: Constructing Edit-Based Fingerprints for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.03122v2
- Date: Wed, 08 Oct 2025 16:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.116416
- Title: From Injection to Defense: Constructing Edit-Based Fingerprints for Large Language Models
- Title(参考訳): インジェクションからディフェンスへ:大規模言語モデルのための編集ベースのフィンガープリントを構築する
- Authors: Yue Li, Xin Yi, Dongsheng Shi, Yongyi Cui, Gerard de Melo, Linlin Wang,
- Abstract要約: 本稿では,ルールベースの多言語自然言語指紋(MNLF)を組み込んだ知識編集フレームワークRFEditを提案する。
RFEditはFingerprint Subspace-aware Fine-Tuning (FSFT)によって保護されている。
- 参考スコア(独自算出の注目度): 28.393476667026523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fingerprinting is critical for maintaining traceability and protecting the intellectual property (IP) of developers, as LLMs deployed in web applications are susceptible to unauthorized redistribution and misuse via fine-tuning or black-box deployment. However, current backdoor-based fingerprinting methods face a fundamental trade-off: fingerprints embedded as garbled text are easily detected and filtered, whereas those crafted as coherent natural language are prone to being triggered unintentionally. To overcome these limitations, we propose RFEdit, a knowledge-editing framework that embeds a rule-based multilingual natural language fingerprint (MNLF) by modifying a sparse subset of model weights. This approach enables efficient and robust fingerprint injection with minimal impact on unrelated knowledge in LLMs. Our RFEdit framework is further safeguarded by Fingerprint Subspace-aware Fine-Tuning (FSFT), which mitigates fingerprint degradation during legitimate fine-tuning by restricting parameter updates to the fingerprint subspace. This approach preserves fingerprint integrity while enhancing downstream task performance of LLMs. These advances establish a comprehensive pipeline from fingerprint injection to defense, achieving high detection effectiveness, robustness against adversarial manipulations, harmlessness to model utility, and persistence under fine-tuning. Extensive experiments demonstrate that RFEdit maintains robustness under quantization and pruning. Additionally, fingerprint effectiveness is generally improved by more than 10\% when combined with FSFT for math and alpaca downstream tasks.
- Abstract(参考訳): フィンガープリンティングは、トレーサビリティの維持と開発者の知的財産権(IP)の保護に重要である。
しかし、現在のバックドアベースの指紋認証法は基本的なトレードオフに直面しており、ガーブラートテキストとして埋め込まれた指紋は容易に検出・フィルタリングされ、コヒーレントな自然言語として作られた指紋は意図せずに引き起こされる傾向にある。
これらの制限を克服するために,ルールベースの多言語自然言語指紋(MNLF)を組み込んだ知識編集フレームワークRFEditを提案する。
このアプローチにより、LLMにおける無関係な知識に最小限の影響を伴って、効率的で堅牢な指紋注入が可能となる。
RFEditフレームワークはFingerprint Subspace-aware Fine-Tuning (FSFT)によってさらに保護されている。
このアプローチは,LLMの下流タスク性能を向上しつつ,指紋の整合性を維持する。
これらの進歩は、指紋注入から防御への包括的パイプラインを確立し、高い検出効率、敵の操作に対する堅牢性、実用性に対する無害性、微調整下での持続性を実現している。
大規模実験により、RFEditは量子化とプルーニングの下で堅牢性を維持することが示された。
さらに、数学とアルパカ下流のタスクでFSFTと組み合わせた場合、指紋の有効性は一般的に10\%以上改善される。
関連論文リスト
- A Behavioral Fingerprint for Large Language Models: Provenance Tracking via Refusal Vectors [43.11304710234668]
安全アライメントによって引き起こされる行動パターンを活用する新しいフィンガープリントフレームワークを提案する。
76の子孫モデルを対象とした大規模識別タスクにおいて,本手法は正しいモデル群を同定する際の精度を100%向上する。
本稿では,このプライベートフィンガープリントを,公開で検証可能なプライバシー保護アーティファクトに変換するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2026-02-10T05:57:35Z) - Antidistillation Fingerprinting [119.66677613290359]
本稿では, 学生の学習力学と指紋認証の目的を一致させる原則的アプローチとして, 抗蒸留フィンガープリント (ADFP) を導入する。
ADFPは、学生モデルのアーキテクチャが未知であっても、最先端のベースラインよりも大幅に改善され、実用性への影響が最小限に抑えられた検出信頼性が向上する。
論文 参考訳(メタデータ) (2026-02-03T18:15:50Z) - DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection [21.422855789542695]
暗黙的な意味的トリガーとドメイン固有のスタイル的手がかりを結合することにより,階層的なバックドアを埋め込むブラックボックス手法を提案する。
Mistral-7B、LLaMA-3-8B-インストラクト、Falcon3-7B-インストラクトを通して、DNFは下流のユーティリティを保ちながら完璧な指紋活性化を実現する。
論文 参考訳(メタデータ) (2026-01-13T05:05:37Z) - SELF: A Robust Singular Value and Eigenvalue Approach for LLM Fingerprinting [4.335948336782789]
本稿では,入力への依存を排除し,本質的に偽の主張に抵抗する本質的な重みに基づく指紋認証方式を提案する。
SELFは,1)LLM注目重みの特異値と固有値分解によるユニークな,スケーラブルかつ変換不変な指紋抽出,2)少数ショット学習とデータ拡張に基づく効果的なニューラルネットワークベースの指紋類似性比較という2つの重要なイノベーションを通じて,堅牢なIP保護を実現する。
論文 参考訳(メタデータ) (2025-12-03T09:53:47Z) - GateRA: Token-Aware Modulation for Parameter-Efficient Fine-Tuning [51.79350934271497]
GateRAは、PEFT更新の強度を動的に調整するトークン対応変調を導入する統一フレームワークである。
適応ゲーティングを標準のPEFTブランチに組み込むことで、Gateraは選択的でトークンレベルの適応を可能にする。
複数のコモンセンス推論ベンチマークの実験により、GateRAはPEFT法よりも一貫して優れ、一致していることが示された。
論文 参考訳(メタデータ) (2025-11-15T17:55:47Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - EditMF: Drawing an Invisible Fingerprint for Your Large Language Models [11.691985114214162]
EditMFはトレーニング不要なフィンガープリントのパラダイムであり、最小の計算オーバーヘッドで非常に受け入れ難いフィンガープリントの埋め込みを実現する。
EditMF は,LoRA ベースの指紋認証をはるかに超越した堅牢性を提供しながら,認識不能なモデルの性能損失と高い認識性を兼ね備えていることを示す。
論文 参考訳(メタデータ) (2025-08-12T10:52:48Z) - FPEdit: Robust LLM Fingerprinting through Localized Parameter Editing [24.648168413166673]
FPEditは、知識編集を利用してセマンティック・コヒーレントな自然言語の指紋を注入する新しいフレームワークである。
FPEditは,全パラメータの微調整とパラメータ効率の両面において,95-100%の指紋保持を実現する。
FPEditは、30GB未満のGPUメモリを使用して、LLaMA2-7Bに10個の指紋ペアを2分以内で埋め込むことができる。
論文 参考訳(メタデータ) (2025-08-04T06:00:22Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - ImF: Implicit Fingerprint for Large Language Models [14.580290415247385]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Scalable Fingerprinting of Large Language Models [46.26999419117367]
我々はPerinucleus sampleと呼ばれる新しい手法を導入し、スケーラブルで永続的で無害な指紋を生成する。
この手法により,Llama-3.1-8Bモデルに24,576個の指紋を付加できることを示した。
論文 参考訳(メタデータ) (2025-02-11T18:43:07Z) - Fingerprint Vector: Enabling Scalable and Efficient Model Fingerprint Transfer via Vector Addition [23.282821424581]
我々はフィンガープリントベクトルと呼ばれる新しいメカニズムを提案する。
指紋をバックドアベースの微調整でベースモデルに埋め込み、タスク固有のパラメータデルタを指紋ベクトルとして抽出する。
キーデシダラタにまたがる直接注入に匹敵する、あるいは優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-13T14:04:39Z) - Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique [2.7174461714624805]
大規模言語モデル(LLM)の盗難や誤用に対する懸念が高まり、効果的な指紋認証の必要性が高まっている。
指紋の透明性、効率性、永続性、ロバスト性、非偽造性という5つの重要な特性を定義します。
我々は,指紋の完全性を維持しつつ,認証された所有権の証明を提供する新しい指紋認証フレームワークを導入する。
論文 参考訳(メタデータ) (2024-07-15T16:38:56Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - Hierarchical Perceptual Noise Injection for Social Media Fingerprint
Privacy Protection [106.5308793283895]
ソーシャルメディアからの指紋漏洩は 画像を匿名化したいという強い欲求を喚起します
指紋漏洩を保護するために、画像に知覚不能な摂動を加えることにより、敵攻撃が解決策として現れる。
この問題を解決するために,階層型パーセプティカルノイズ注入フレームワークであるFingerSafeを提案する。
論文 参考訳(メタデータ) (2022-08-23T02:20:46Z) - Latent Fingerprint Registration via Matching Densely Sampled Points [100.53031290339483]
既存の潜伏指紋登録手法は、主にミツバチ間の対応を確立することに基づいている。
本研究では,一対の指紋間の空間的変換を推定する,最小限の潜伏指紋登録手法を提案する。
提案手法は,特に挑戦的な条件下で,最先端の登録性能を実現する。
論文 参考訳(メタデータ) (2020-05-12T15:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。