論文の概要: Inhibitory Attacks on Backdoor-based Fingerprinting for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.04261v1
- Date: Wed, 07 Jan 2026 06:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.835475
- Title: Inhibitory Attacks on Backdoor-based Fingerprinting for Large Language Models
- Title(参考訳): 大規模言語モデルにおけるバックドアベースフィンガープリントの抑制的攻撃
- Authors: Hang Fu, Wanli Peng, Yinghan Zhou, Jiaxuan Wu, Juan Wen, Yiming Xue,
- Abstract要約: 本稿では,トークンフィルタ攻撃(TFA)と文検証攻撃(SVA)の2つの新しい指紋認証手法を提案する。
本手法は,アンサンブル性能を維持しつつ,指紋応答を効果的に抑制する手法である。
- 参考スコア(独自算出の注目度): 14.909356150499297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of Large Language Model (LLM) in commercial and research settings has intensified the need for robust intellectual property protection. Backdoor-based LLM fingerprinting has emerged as a promising solution for this challenge. In practical application, the low-cost multi-model collaborative technique, LLM ensemble, combines diverse LLMs to leverage their complementary strengths, garnering significant attention and practical adoption. Unfortunately, the vulnerability of existing LLM fingerprinting for the ensemble scenario is unexplored. In order to comprehensively assess the robustness of LLM fingerprinting, in this paper, we propose two novel fingerprinting attack methods: token filter attack (TFA) and sentence verification attack (SVA). The TFA gets the next token from a unified set of tokens created by the token filter mechanism at each decoding step. The SVA filters out fingerprint responses through a sentence verification mechanism based on perplexity and voting. Experimentally, the proposed methods effectively inhibit the fingerprint response while maintaining ensemble performance. Compared with state-of-the-art attack methods, the proposed method can achieve better performance. The findings necessitate enhanced robustness in LLM fingerprinting.
- Abstract(参考訳): 商業および研究環境におけるLarge Language Model(LLM)の普及により、堅牢な知的財産保護の必要性が高まっている。
バックドアベースのLDMフィンガープリントは、この挑戦の有望な解決策として登場した。
実用的応用として、低コストの多モデル協調技術であるLLMアンサンブル(LLM ensemble)は、様々なLLMを組み合わせて、それらの相補的な強みを活用し、重要な注意と実践的採用を育成する。
残念なことに、アンサンブルシナリオに対する既存のLLMフィンガープリントの脆弱性は明らかにされていない。
本稿では,LLMフィンガープリントの堅牢性を評価するために,トークンフィルタ攻撃 (TFA) と文検証攻撃 (SVA) の2つの新しいフィンガープリント攻撃手法を提案する。
TFAは、トークンフィルタ機構によって生成されたトークンの統一セットから、各デコードステップで次のトークンを取得する。
SVAは、難易度と投票に基づいて、文検証機構を介して指紋応答をフィルタリングする。
提案手法は,アンサンブル性能を維持しつつ,指紋応答を効果的に抑制する。
現状の攻撃手法と比較すると,提案手法は性能が向上する。
この所見はLDMフィンガープリントにおける強靭性を必要とした。
関連論文リスト
- iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification [22.052342142871144]
iSealは、モデル泥棒が疑わしいLLMをエンドツーエンドで制御する際に、信頼性の高い検証のために設計されたフィンガープリント手法である。
モデルと外部モジュールの両方にユニークな特徴を注入し、エラー訂正機構と類似性に基づく検証戦略によって強化される。
iSealは、12 LLMで10以上の攻撃に対して100%フィンガープリント成功率を達成する一方、ベースラインは未学習およびレスポンス操作で失敗する。
論文 参考訳(メタデータ) (2025-11-12T02:30:19Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - EditMF: Drawing an Invisible Fingerprint for Your Large Language Models [11.691985114214162]
EditMFはトレーニング不要なフィンガープリントのパラダイムであり、最小の計算オーバーヘッドで非常に受け入れ難いフィンガープリントの埋め込みを実現する。
EditMF は,LoRA ベースの指紋認証をはるかに超越した堅牢性を提供しながら,認識不能なモデルの性能損失と高い認識性を兼ね備えていることを示す。
論文 参考訳(メタデータ) (2025-08-12T10:52:48Z) - ImF: Implicit Fingerprint for Large Language Models [14.580290415247385]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。