論文の概要: iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification
- arxiv url: http://arxiv.org/abs/2511.08905v1
- Date: Thu, 13 Nov 2025 01:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.291131
- Title: iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification
- Title(参考訳): iSeal:信頼性の高いLLM所有者認証のために暗号化されたフィンガープリント
- Authors: Zixun Xiong, Gaoyi Wu, Qingyang Yu, Mingyu Derek Ma, Lingfeng Yao, Miao Pan, Xiaojiang Du, Hao Wang,
- Abstract要約: iSealは、モデル泥棒が疑わしいLLMをエンドツーエンドで制御する際に、信頼性の高い検証のために設計されたフィンガープリント手法である。
モデルと外部モジュールの両方にユニークな特徴を注入し、エラー訂正機構と類似性に基づく検証戦略によって強化される。
iSealは、12 LLMで10以上の攻撃に対して100%フィンガープリント成功率を達成する一方、ベースラインは未学習およびレスポンス操作で失敗する。
- 参考スコア(独自算出の注目度): 22.052342142871144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the high cost of large language model (LLM) training from scratch, safeguarding LLM intellectual property (IP) has become increasingly crucial. As the standard paradigm for IP ownership verification, LLM fingerprinting thus plays a vital role in addressing this challenge. Existing LLM fingerprinting methods verify ownership by extracting or injecting model-specific features. However, they overlook potential attacks during the verification process, leaving them ineffective when the model thief fully controls the LLM's inference process. In such settings, attackers may share prompt-response pairs to enable fingerprint unlearning or manipulate outputs to evade exact-match verification. We propose iSeal, the first fingerprinting method designed for reliable verification when the model thief controls the suspected LLM in an end-to-end manner. It injects unique features into both the model and an external module, reinforced by an error-correction mechanism and a similarity-based verification strategy. These components are resistant to verification-time attacks, including collusion-based fingerprint unlearning and response manipulation, backed by both theoretical analysis and empirical results. iSeal achieves 100 percent Fingerprint Success Rate (FSR) on 12 LLMs against more than 10 attacks, while baselines fail under unlearning and response manipulations.
- Abstract(参考訳): ゼロからの大きな言語モデル(LLM)トレーニングのコストが高いことから、LLM知的財産権(IP)の保護がますます重要になっている。
したがって、IPオーナシップ認証の標準パラダイムとして、LCMフィンガープリントがこの課題に対処する上で重要な役割を果たす。
既存のLCMフィンガープリント法は、モデル固有の特徴を抽出または注入することによって所有権を検証する。
しかし、彼らは検証プロセス中に潜在的な攻撃を見落とし、モデル泥棒がLLMの推論プロセスを完全に制御した場合は効果を残さない。
このような設定では、攻撃者は指紋のアンラーニングを可能にするプロンプト-レスポンスペアを共有したり、アウトプットを操作することで、正確なマッチ検証を回避することができる。
モデル泥棒が疑わしいLSMをエンドツーエンドに制御する際の信頼性検証を目的とした,最初の指紋認証手法であるiSealを提案する。
モデルと外部モジュールの両方にユニークな特徴を注入し、エラー訂正機構と類似性に基づく検証戦略によって強化される。
これらのコンポーネントは、理論的分析と経験的結果の両方によって裏付けられた、共謀ベースの指紋アンラーニングや応答操作など、検証時間の攻撃に耐性がある。
iSealは10以上の攻撃に対して12LLMで100%指紋成功率(FSR)を達成する一方、ベースラインは未学習および応答操作で失敗する。
関連論文リスト
- SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Fingerprinting LLMs via Prompt Injection [16.907123772391213]
大規模言語モデル(LLM)は、後処理や量子化といった後処理によって、リリース後にしばしば修正される。
既存のプロファイランス検出手法には,(1)リリース前のベースモデルにシグナルを埋め込む,(2)手作りのプロンプトやランダムなプロンプトを用いたモデル間の出力を比較する,という2つの制限がある。
我々はLLMPrintを提案する。LLMPrintはLDM固有の脆弱性を利用して指紋を検知する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-09-29T19:54:36Z) - EditMF: Drawing an Invisible Fingerprint for Your Large Language Models [11.691985114214162]
EditMFはトレーニング不要なフィンガープリントのパラダイムであり、最小の計算オーバーヘッドで非常に受け入れ難いフィンガープリントの埋め込みを実現する。
EditMF は,LoRA ベースの指紋認証をはるかに超越した堅牢性を提供しながら,認識不能なモデルの性能損失と高い認識性を兼ね備えていることを示す。
論文 参考訳(メタデータ) (2025-08-12T10:52:48Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - ImF: Implicit Fingerprint for Large Language Models [14.580290415247385]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。