論文の概要: Gradient-Based Model Fingerprinting for LLM Similarity Detection and Family Classification
- arxiv url: http://arxiv.org/abs/2506.01631v1
- Date: Mon, 02 Jun 2025 13:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.39382
- Title: Gradient-Based Model Fingerprinting for LLM Similarity Detection and Family Classification
- Title(参考訳): LLM類似性検出のための勾配モデルフィンガープリントと家族分類
- Authors: Zehao Wu, Yanjie Zhao, Haoyu Wang,
- Abstract要約: 大規模言語モデル(LLM)は、現代のアプリケーションにおいて重要なソフトウェアコンポーネントである。
類似性検出と家族分類のための勾配型フィンガープリントフレームワークGuardを提示する。
本稿では,ランダムな入力摂動に対する応答を解析することにより,モデル固有の行動シグネチャを抽出する。
広く採用されているセーフテンソルフォーマットをサポートし、勾配特性の統計解析を通じて高次元指紋を構築する。
- 参考スコア(独自算出の注目度): 6.008384763761687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) become integral software components in modern applications, unauthorized model derivations through fine-tuning, merging, and redistribution have emerged as critical software engineering challenges. Unlike traditional software where clone detection and license compliance are well-established, the LLM ecosystem lacks effective mechanisms to detect model lineage and enforce licensing agreements. This gap is particularly problematic when open-source model creators, such as Meta's LLaMA, require derivative works to maintain naming conventions for attribution, yet no technical means exist to verify compliance. To fill this gap, treating LLMs as software artifacts requiring provenance tracking, we present TensorGuard, a gradient-based fingerprinting framework for LLM similarity detection and family classification. Our approach extracts model-intrinsic behavioral signatures by analyzing gradient responses to random input perturbations across tensor layers, operating independently of training data, watermarks, or specific model formats. TensorGuard supports the widely-adopted safetensors format and constructs high-dimensional fingerprints through statistical analysis of gradient features. These fingerprints enable two complementary capabilities: direct pairwise similarity assessment between arbitrary models through distance computation, and systematic family classification of unknown models via the K-Means clustering algorithm with domain-informed centroid initialization using known base models. Experimental evaluation on 58 models comprising 8 base models and 50 derivatives across five model families (Llama, Qwen, Gemma, Phi, Mistral) demonstrates 94% classification accuracy under our centroid-initialized K-Means clustering.
- Abstract(参考訳): 大規模言語モデル(LLM)が現代のアプリケーションにおいて不可欠なソフトウェアコンポーネントになるにつれて、微調整、マージ、再配布による無許可のモデル導出がソフトウェア工学の重要な課題として現れてきた。
クローン検出とライセンスコンプライアンスが十分に確立されている従来のソフトウェアとは異なり、LLMエコシステムはモデル系統を検出し、ライセンス契約を強制する効果的なメカニズムを欠いている。
このギャップは、MetaのLLaMAのようなオープンソースのモデルクリエータが、属性の命名規則を維持するためにデリバティブワークを必要とする場合、特に問題となるが、コンプライアンスを検証するための技術的手段は存在しない。
このギャップを埋めるために、LLMをプロファイナンストラッキングを必要とするソフトウェアアーティファクトとして扱うために、LLM類似性検出と家族分類のための勾配ベースのフィンガープリントフレームワークであるTensorGuardを提案する。
提案手法は,テンソル層間のランダムな入力摂動に対する勾配応答を解析し,トレーニングデータや透かし,あるいは特定のモデルフォーマットから独立して動作することによって,モデル固有の行動シグネチャを抽出する。
TensorGuardは広く採用されているセーフテンソルフォーマットをサポートし、勾配特徴の統計解析を通じて高次元指紋を構築する。
これらの指紋は、距離計算による任意のモデル間の直接的なペアワイド類似性評価と、既知のベースモデルを用いたドメイン情報付きセントロイド初期化を用いたK-Meansクラスタリングアルゴリズムによる未知モデルの系統的な家族分類の2つの補完的な機能を実現する。
5つのモデルファミリー(Llama, Qwen, Gemma, Phi, Mistral)にまたがる8つのベースモデルと50のデリバティブからなる58モデルの実験的評価を行った。
関連論文リスト
- A Perplexity and Menger Curvature-Based Approach for Similarity Evaluation of Large Language Models [0.6906005491572401]
LLM(Large Language Models)は、著作権侵害とデータおよびモデル使用における非倫理的慣行に関する懸念を提起している。
本稿では,メンガー曲率のパープレキシティ曲線と差を利用したLLM類似度の定量化手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T16:04:25Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。