論文の概要: Attacks and Defenses Against LLM Fingerprinting
- arxiv url: http://arxiv.org/abs/2508.09021v1
- Date: Tue, 12 Aug 2025 15:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.482657
- Title: Attacks and Defenses Against LLM Fingerprinting
- Title(参考訳): LLMフィンガープリントに対する攻撃と防御
- Authors: Kevin Kurian, Ethan Holland, Sean Oesch,
- Abstract要約: 攻撃的,防御的両面からLLMフィンガープリントについて検討した。
攻撃手法は強化学習を用いてクエリ選択を自動的に最適化する。
我々の防御的アプローチは、モデルアイデンティティを難読化するために二次LLMを通して意味保存出力フィルタリングを採用する。
- 参考スコア(独自算出の注目度): 2.5824043688763547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models are increasingly deployed in sensitive environments, fingerprinting attacks pose significant privacy and security risks. We present a study of LLM fingerprinting from both offensive and defensive perspectives. Our attack methodology uses reinforcement learning to automatically optimize query selection, achieving better fingerprinting accuracy with only 3 queries compared to randomly selecting 3 queries from the same pool. Our defensive approach employs semantic-preserving output filtering through a secondary LLM to obfuscate model identity while maintaining semantic integrity. The defensive method reduces fingerprinting accuracy across tested models while preserving output quality. These contributions show the potential to improve fingerprinting tools capabilities while providing practical mitigation strategies against fingerprinting attacks.
- Abstract(参考訳): 大規模な言語モデルがセンシティブな環境にますます展開されるにつれて、指紋認証攻撃はプライバシーとセキュリティの重大なリスクをもたらす。
攻撃的,防御的両面からLLMフィンガープリントについて検討した。
攻撃手法は強化学習を用いてクエリ選択を自動的に最適化し、同じプールからランダムに3つのクエリを選択するのに対し、3つのクエリだけで指紋認証精度が向上する。
我々の防御的アプローチは、セマンティックな整合性を維持しながらモデルのアイデンティティを難読化するために二次LLMによるセマンティック保存出力フィルタリングを採用する。
この防御方法は、出力品質を保ちながら、試験されたモデル間での指紋認証の精度を低下させる。
これらの貢献は、フィンガープリント攻撃に対する実用的な緩和戦略を提供しながら、フィンガープリントツール機能を改善する可能性を示している。
関連論文リスト
- MEraser: An Effective Fingerprint Erasure Approach for Large Language Models [19.8112399985437]
大規模言語モデル(LLM)は、様々な分野に広まり、モデルの所有と知的財産保護に関する重要な懸念を提起している。
モデル性能を維持しつつ, LLMからバックドアベースの指紋を効果的に除去する手法であるMismatched Eraser(MEraser)を提案する。
論文 参考訳(メタデータ) (2025-06-14T15:48:53Z) - ImF: Implicit Fingerprint for Large Language Models [0.0]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Adversarial Example Based Fingerprinting for Robust Copyright Protection in Split Learning [17.08424946015621]
本研究では,指紋を有効かつ堅牢な著作権保護に活用する分割学習モデルの最初の著作権保護手法を提案する。
これは、MNISTで100%、CIFAR-10で98%、ImageNetで100%の顕著な指紋認証成功率(FVSR)で示される。
論文 参考訳(メタデータ) (2025-03-05T06:07:16Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique [2.7174461714624805]
大規模言語モデル(LLM)の盗難や誤用に対する懸念が高まり、効果的な指紋認証の必要性が高まっている。
指紋の透明性、効率性、永続性、ロバスト性、非偽造性という5つの重要な特性を定義します。
我々は,指紋の完全性を維持しつつ,認証された所有権の証明を提供する新しい指紋認証フレームワークを導入する。
論文 参考訳(メタデータ) (2024-07-15T16:38:56Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。