論文の概要: A Behavioral Fingerprint for Large Language Models: Provenance Tracking via Refusal Vectors
- arxiv url: http://arxiv.org/abs/2602.09434v1
- Date: Tue, 10 Feb 2026 05:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.395227
- Title: A Behavioral Fingerprint for Large Language Models: Provenance Tracking via Refusal Vectors
- Title(参考訳): 大規模言語モデルのための行動指紋:拒否ベクトルによる発話追跡
- Authors: Zhenyu Xu, Victor S. Sheng,
- Abstract要約: 安全アライメントによって引き起こされる行動パターンを活用する新しいフィンガープリントフレームワークを提案する。
76の子孫モデルを対象とした大規模識別タスクにおいて,本手法は正しいモデル群を同定する際の精度を100%向上する。
本稿では,このプライベートフィンガープリントを,公開で検証可能なプライバシー保護アーティファクトに変換するための理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 43.11304710234668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protecting the intellectual property of large language models (LLMs) is a critical challenge due to the proliferation of unauthorized derivative models. We introduce a novel fingerprinting framework that leverages the behavioral patterns induced by safety alignment, applying the concept of refusal vectors for LLM provenance tracking. These vectors, extracted from directional patterns in a model's internal representations when processing harmful versus harmless prompts, serve as robust behavioral fingerprints. Our contribution lies in developing a fingerprinting system around this concept and conducting extensive validation of its effectiveness for IP protection. We demonstrate that these behavioral fingerprints are highly robust against common modifications, including finetunes, merges, and quantization. Our experiments show that the fingerprint is unique to each model family, with low cosine similarity between independently trained models. In a large-scale identification task across 76 offspring models, our method achieves 100\% accuracy in identifying the correct base model family. Furthermore, we analyze the fingerprint's behavior under alignment-breaking attacks, finding that while performance degrades significantly, detectable traces remain. Finally, we propose a theoretical framework to transform this private fingerprint into a publicly verifiable, privacy-preserving artifact using locality-sensitive hashing and zero-knowledge proofs.
- Abstract(参考訳): 大規模言語モデル(LLM)の知的特性を保護することは、未承認の派生モデルの拡散によって重要な課題である。
安全アライメントによって引き起こされる行動パターンを活用する新しいフィンガープリントフレームワークを提案する。
これらのベクトルは、有害なプロンプトと無害なプロンプトを処理するとき、モデルの内部表現の方向パターンから抽出され、堅牢な行動指紋として機能する。
我々の貢献は、この概念にまつわる指紋認証システムを開発し、IP保護の有効性を広範囲に検証することにある。
これらの行動指紋は、ファインタイン、マージ、量子化など、一般的な修正に対して非常に堅牢であることを示す。
実験の結果,指紋は各モデルファミリに特有であり,独立に訓練されたモデル間のコサイン類似度は低いことがわかった。
76の子孫モデルを対象とした大規模識別タスクにおいて,本手法は正しいモデル群を同定する際の精度を100倍に向上する。
さらに,アライメント破壊攻撃時の指紋の挙動を解析したところ,性能が著しく低下する一方で,検出可能な痕跡が残っていることがわかった。
最後に、このプライベート指紋を、局所性に敏感なハッシュとゼロ知識証明を用いて、公に検証可能なプライバシー保護アーティファクトに変換する理論的枠組みを提案する。
関連論文リスト
- Antidistillation Fingerprinting [119.66677613290359]
本稿では, 学生の学習力学と指紋認証の目的を一致させる原則的アプローチとして, 抗蒸留フィンガープリント (ADFP) を導入する。
ADFPは、学生モデルのアーキテクチャが未知であっても、最先端のベースラインよりも大幅に改善され、実用性への影響が最小限に抑えられた検出信頼性が向上する。
論文 参考訳(メタデータ) (2026-02-03T18:15:50Z) - Are Robust LLM Fingerprints Adversarially Robust? [31.998822577243867]
まず、モデルフィンガープリントに対する具体的な、実用的な脅威モデルを定義する。
次に、既存のモデルフィンガープリント方式を批判的に見て、その基本的な脆弱性を特定します。
これらに基づいて,各脆弱性に適した適応的敵攻撃を開発する。
論文 参考訳(メタデータ) (2025-09-30T17:47:09Z) - SeedPrints: Fingerprints Can Even Tell Which Seed Your Large Language Model Was Trained From [65.75182441010327]
我々は,LDMフィンガープリントのより強く,より本質的な概念であるSeedPrintsを提案する。
トレーニングされていないモデルでは,パラメータのみに依存した再現可能なトークン選択バイアスが示される。
LLaMAスタイルとQwenスタイルのモデルの実験では、SeedPrintsはシードレベルの識別性を実現し、バイオメトリック指紋に似た生来からライフサイクルの識別認証を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:34:08Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - ImF: Implicit Fingerprint for Large Language Models [14.580290415247385]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Scalable Fingerprinting of Large Language Models [42.65365809809273]
我々はPerinucleus sampleと呼ばれる新しい手法を導入し、スケーラブルで永続的で無害な指紋を生成する。
この手法により,Llama-3.1-8Bモデルに24,576個の指紋を付加できることを示した。
論文 参考訳(メタデータ) (2025-02-11T18:43:07Z) - Fingerprint Vector: Enabling Scalable and Efficient Model Fingerprint Transfer via Vector Addition [23.282821424581]
我々はフィンガープリントベクトルと呼ばれる新しいメカニズムを提案する。
指紋をバックドアベースの微調整でベースモデルに埋め込み、タスク固有のパラメータデルタを指紋ベクトルとして抽出する。
キーデシダラタにまたがる直接注入に匹敵する、あるいは優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-13T14:04:39Z) - Artificial Fingerprinting for Generative Models: Rooting Deepfake
Attribution in Training Data [64.65952078807086]
光現実性画像生成は、GAN(Generative Adversarial Network)のブレークスルーにより、新たな品質レベルに達した。
しかし、このようなディープフェイクのダークサイド、すなわち生成されたメディアの悪意ある使用は、視覚的誤報に関する懸念を提起する。
我々は,モデルに人工指紋を導入することによって,深度検出の積極的な,持続可能なソリューションを模索する。
論文 参考訳(メタデータ) (2020-07-16T16:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。