論文の概要: Fingerprinting LLMs via Prompt Injection
- arxiv url: http://arxiv.org/abs/2509.25448v2
- Date: Wed, 01 Oct 2025 14:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.827851
- Title: Fingerprinting LLMs via Prompt Injection
- Title(参考訳): プロンプト注入によるフィンガープリントLDM
- Authors: Yuepeng Hu, Zhengyuan Jiang, Mengyuan Li, Osama Ahmed, Zhicong Huang, Cheng Hong, Neil Gong,
- Abstract要約: 大規模言語モデル(LLM)は、後処理や量子化といった後処理によって、リリース後にしばしば修正される。
既存のプロファイランス検出手法には,(1)リリース前のベースモデルにシグナルを埋め込む,(2)手作りのプロンプトやランダムなプロンプトを用いたモデル間の出力を比較する,という2つの制限がある。
我々はLLMPrintを提案する。LLMPrintはLDM固有の脆弱性を利用して指紋を検知する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 16.907123772391213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are often modified after release through post-processing such as post-training or quantization, which makes it challenging to determine whether one model is derived from another. Existing provenance detection methods have two main limitations: (1) they embed signals into the base model before release, which is infeasible for already published models, or (2) they compare outputs across models using hand-crafted or random prompts, which are not robust to post-processing. In this work, we propose LLMPrint, a novel detection framework that constructs fingerprints by exploiting LLMs' inherent vulnerability to prompt injection. Our key insight is that by optimizing fingerprint prompts to enforce consistent token preferences, we can obtain fingerprints that are both unique to the base model and robust to post-processing. We further develop a unified verification procedure that applies to both gray-box and black-box settings, with statistical guarantees. We evaluate LLMPrint on five base models and around 700 post-trained or quantized variants. Our results show that LLMPrint achieves high true positive rates while keeping false positive rates near zero.
- Abstract(参考訳): 大規模言語モデル(LLM)は、後処理や量子化などの後処理によってリリース後にしばしば修正されるため、あるモデルが別のモデルから派生しているかどうかを判断することは困難である。
既存のプロファイランス検出手法には,(1)リリース前のベースモデルにシグナルを埋め込む,(2)手作りのプロンプトやランダムなプロンプトを用いたモデル間の出力を比較する,という2つの制限がある。
本研究では,LLMPrintを提案する。LLMPrintは,LPMs固有の脆弱性を利用した新しい指紋検出フレームワークである。
キーとなる洞察は、指紋プロンプトを最適化して一貫したトークンの選好を強制することで、ベースモデルに固有の指紋と後処理に堅牢な指紋を得ることができるということです。
さらに,グレーボックス設定とブラックボックス設定の両方に適用可能な統一的な検証手順を開発し,統計的保証を行う。
LLMPrintを5つのベースモデルと約700のポストトレーニング後または量子化された変種で評価した。
以上の結果から,LLMPrintは偽陽性率を0付近に保ちながら,真の正の値が得られることがわかった。
関連論文リスト
- iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification [22.052342142871144]
iSealは、モデル泥棒が疑わしいLLMをエンドツーエンドで制御する際に、信頼性の高い検証のために設計されたフィンガープリント手法である。
モデルと外部モジュールの両方にユニークな特徴を注入し、エラー訂正機構と類似性に基づく検証戦略によって強化される。
iSealは、12 LLMで10以上の攻撃に対して100%フィンガープリント成功率を達成する一方、ベースラインは未学習およびレスポンス操作で失敗する。
論文 参考訳(メタデータ) (2025-11-12T02:30:19Z) - Reading Between the Lines: Towards Reliable Black-box LLM Fingerprinting via Zeroth-order Gradient Estimation [33.83669045868836]
ブラックボックス法は、しばしば顕著なLarge Language Modelsの指紋を生成するのに失敗する。
ゼロオーダー推定を用いたブラックボックス設定における情報豊富な勾配を近似する新しい手法であるZeroPrintを提案する。
標準ベンチマークの実験では、ZeroPrintは最先端の有効性とロバスト性を達成し、既存のブラックボックスメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-08T03:27:38Z) - SeedPrints: Fingerprints Can Even Tell Which Seed Your Large Language Model Was Trained From [65.75182441010327]
我々は,LDMフィンガープリントのより強く,より本質的な概念であるSeedPrintsを提案する。
トレーニングされていないモデルでは,パラメータのみに依存した再現可能なトークン選択バイアスが示される。
LLaMAスタイルとQwenスタイルのモデルの実験では、SeedPrintsはシードレベルの識別性を実現し、バイオメトリック指紋に似た生来からライフサイクルの識別認証を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:34:08Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - UTF:Undertrained Tokens as Fingerprints A Novel Approach to LLM Identification [9.780530666330007]
大型言語モデル(LLM)のフィンガープリントは、モデルのオーナシップの検証、信頼性の確保、誤用防止に不可欠である。
本稿では,未学習トークンを利用したLDMのフィンガープリント手法を提案する。
提案手法は,モデルの性能に最小限のオーバーヘッドと影響があり,対象モデルのオーナシップ識別にホワイトボックスアクセスを必要としない。
論文 参考訳(メタデータ) (2024-10-16T07:36:57Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models [18.46904928949022]
大規模言語モデル(LLM)のためのブラックボックス指紋認証に基づくIP保護スキームProFLingoを提案する。
ProFLingoは、オリジナルのモデルから特定の応答を引き出すクエリを生成し、ユニークな指紋を確立する。
提案手法は,疑似モデルにおけるこれらのクエリの有効性を評価し,元のモデルから派生したものかどうかを判断する。
論文 参考訳(メタデータ) (2024-05-03T20:00:40Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - HuRef: HUman-REadable Fingerprint for Large Language Models [44.9820558213721]
HuRefは、大きな言語モデルのための人間可読指紋である。
トレーニングやモデルパラメータを公開することなく、ベースモデルを独自に識別する。
論文 参考訳(メタデータ) (2023-12-08T05:01:47Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。