論文の概要: Attacks and Defenses Against LLM Fingerprinting
- arxiv url: http://arxiv.org/abs/2508.09021v1
- Date: Tue, 12 Aug 2025 15:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.482657
- Title: Attacks and Defenses Against LLM Fingerprinting
- Title(参考訳): LLMフィンガープリントに対する攻撃と防御
- Authors: Kevin Kurian, Ethan Holland, Sean Oesch,
- Abstract要約: 攻撃的,防御的両面からLLMフィンガープリントについて検討した。
攻撃手法は強化学習を用いてクエリ選択を自動的に最適化する。
我々の防御的アプローチは、モデルアイデンティティを難読化するために二次LLMを通して意味保存出力フィルタリングを採用する。
- 参考スコア(独自算出の注目度): 2.5824043688763547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models are increasingly deployed in sensitive environments, fingerprinting attacks pose significant privacy and security risks. We present a study of LLM fingerprinting from both offensive and defensive perspectives. Our attack methodology uses reinforcement learning to automatically optimize query selection, achieving better fingerprinting accuracy with only 3 queries compared to randomly selecting 3 queries from the same pool. Our defensive approach employs semantic-preserving output filtering through a secondary LLM to obfuscate model identity while maintaining semantic integrity. The defensive method reduces fingerprinting accuracy across tested models while preserving output quality. These contributions show the potential to improve fingerprinting tools capabilities while providing practical mitigation strategies against fingerprinting attacks.
- Abstract(参考訳): 大規模な言語モデルがセンシティブな環境にますます展開されるにつれて、指紋認証攻撃はプライバシーとセキュリティの重大なリスクをもたらす。
攻撃的,防御的両面からLLMフィンガープリントについて検討した。
攻撃手法は強化学習を用いてクエリ選択を自動的に最適化し、同じプールからランダムに3つのクエリを選択するのに対し、3つのクエリだけで指紋認証精度が向上する。
我々の防御的アプローチは、セマンティックな整合性を維持しながらモデルのアイデンティティを難読化するために二次LLMによるセマンティック保存出力フィルタリングを採用する。
この防御方法は、出力品質を保ちながら、試験されたモデル間での指紋認証の精度を低下させる。
これらの貢献は、フィンガープリント攻撃に対する実用的な緩和戦略を提供しながら、フィンガープリントツール機能を改善する可能性を示している。
関連論文リスト
- Inhibitory Attacks on Backdoor-based Fingerprinting for Large Language Models [14.909356150499297]
本稿では,トークンフィルタ攻撃(TFA)と文検証攻撃(SVA)の2つの新しい指紋認証手法を提案する。
本手法は,アンサンブル性能を維持しつつ,指紋応答を効果的に抑制する手法である。
論文 参考訳(メタデータ) (2026-01-07T06:06:56Z) - iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification [22.052342142871144]
iSealは、モデル泥棒が疑わしいLLMをエンドツーエンドで制御する際に、信頼性の高い検証のために設計されたフィンガープリント手法である。
モデルと外部モジュールの両方にユニークな特徴を注入し、エラー訂正機構と類似性に基づく検証戦略によって強化される。
iSealは、12 LLMで10以上の攻撃に対して100%フィンガープリント成功率を達成する一方、ベースラインは未学習およびレスポンス操作で失敗する。
論文 参考訳(メタデータ) (2025-11-12T02:30:19Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - SeedPrints: Fingerprints Can Even Tell Which Seed Your Large Language Model Was Trained From [65.75182441010327]
我々は,LDMフィンガープリントのより強く,より本質的な概念であるSeedPrintsを提案する。
トレーニングされていないモデルでは,パラメータのみに依存した再現可能なトークン選択バイアスが示される。
LLaMAスタイルとQwenスタイルのモデルの実験では、SeedPrintsはシードレベルの識別性を実現し、バイオメトリック指紋に似た生来からライフサイクルの識別認証を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:34:08Z) - From Injection to Defense: Constructing Edit-Based Fingerprints for Large Language Models [28.393476667026523]
本稿では,ルールベースの多言語自然言語指紋(MNLF)を組み込んだ知識編集フレームワークRFEditを提案する。
RFEditはFingerprint Subspace-aware Fine-Tuning (FSFT)によって保護されている。
論文 参考訳(メタデータ) (2025-09-03T08:22:04Z) - MEraser: An Effective Fingerprint Erasure Approach for Large Language Models [19.8112399985437]
大規模言語モデル(LLM)は、様々な分野に広まり、モデルの所有と知的財産保護に関する重要な懸念を提起している。
モデル性能を維持しつつ, LLMからバックドアベースの指紋を効果的に除去する手法であるMismatched Eraser(MEraser)を提案する。
論文 参考訳(メタデータ) (2025-06-14T15:48:53Z) - ImF: Implicit Fingerprint for Large Language Models [0.0]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Adversarial Example Based Fingerprinting for Robust Copyright Protection in Split Learning [17.08424946015621]
本研究では,指紋を有効かつ堅牢な著作権保護に活用する分割学習モデルの最初の著作権保護手法を提案する。
これは、MNISTで100%、CIFAR-10で98%、ImageNetで100%の顕著な指紋認証成功率(FVSR)で示される。
論文 参考訳(メタデータ) (2025-03-05T06:07:16Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique [2.7174461714624805]
大規模言語モデル(LLM)の盗難や誤用に対する懸念が高まり、効果的な指紋認証の必要性が高まっている。
指紋の透明性、効率性、永続性、ロバスト性、非偽造性という5つの重要な特性を定義します。
我々は,指紋の完全性を維持しつつ,認証された所有権の証明を提供する新しい指紋認証フレームワークを導入する。
論文 参考訳(メタデータ) (2024-07-15T16:38:56Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。