Fugu-MT 論文翻訳(概要): Gradient-Based Model Fingerprinting for LLM Similarity Detection and Family Classification

論文の概要: Gradient-Based Model Fingerprinting for LLM Similarity Detection and Family Classification

arxiv url: http://arxiv.org/abs/2506.01631v1
Date: Mon, 02 Jun 2025 13:08:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.39382
Title: Gradient-Based Model Fingerprinting for LLM Similarity Detection and Family Classification
Title（参考訳）: LLM類似性検出のための勾配モデルフィンガープリントと家族分類
Authors: Zehao Wu, Yanjie Zhao, Haoyu Wang,
Abstract要約: 大規模言語モデル(LLM)は、現代のアプリケーションにおいて重要なソフトウェアコンポーネントである。類似性検出と家族分類のための勾配型フィンガープリントフレームワークGuardを提示する。本稿では,ランダムな入力摂動に対する応答を解析することにより,モデル固有の行動シグネチャを抽出する。広く採用されているセーフテンソルフォーマットをサポートし、勾配特性の統計解析を通じて高次元指紋を構築する。
参考スコア（独自算出の注目度）: 6.008384763761687
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models (LLMs) become integral software components in modern applications, unauthorized model derivations through fine-tuning, merging, and redistribution have emerged as critical software engineering challenges. Unlike traditional software where clone detection and license compliance are well-established, the LLM ecosystem lacks effective mechanisms to detect model lineage and enforce licensing agreements. This gap is particularly problematic when open-source model creators, such as Meta's LLaMA, require derivative works to maintain naming conventions for attribution, yet no technical means exist to verify compliance. To fill this gap, treating LLMs as software artifacts requiring provenance tracking, we present TensorGuard, a gradient-based fingerprinting framework for LLM similarity detection and family classification. Our approach extracts model-intrinsic behavioral signatures by analyzing gradient responses to random input perturbations across tensor layers, operating independently of training data, watermarks, or specific model formats. TensorGuard supports the widely-adopted safetensors format and constructs high-dimensional fingerprints through statistical analysis of gradient features. These fingerprints enable two complementary capabilities: direct pairwise similarity assessment between arbitrary models through distance computation, and systematic family classification of unknown models via the K-Means clustering algorithm with domain-informed centroid initialization using known base models. Experimental evaluation on 58 models comprising 8 base models and 50 derivatives across five model families (Llama, Qwen, Gemma, Phi, Mistral) demonstrates 94% classification accuracy under our centroid-initialized K-Means clustering.
Abstract（参考訳）: 大規模言語モデル(LLM)が現代のアプリケーションにおいて不可欠なソフトウェアコンポーネントになるにつれて、微調整、マージ、再配布による無許可のモデル導出がソフトウェア工学の重要な課題として現れてきた。クローン検出とライセンスコンプライアンスが十分に確立されている従来のソフトウェアとは異なり、LLMエコシステムはモデル系統を検出し、ライセンス契約を強制する効果的なメカニズムを欠いている。このギャップは、MetaのLLaMAのようなオープンソースのモデルクリエータが、属性の命名規則を維持するためにデリバティブワークを必要とする場合、特に問題となるが、コンプライアンスを検証するための技術的手段は存在しない。このギャップを埋めるために、LLMをプロファイナンストラッキングを必要とするソフトウェアアーティファクトとして扱うために、LLM類似性検出と家族分類のための勾配ベースのフィンガープリントフレームワークであるTensorGuardを提案する。提案手法は,テンソル層間のランダムな入力摂動に対する勾配応答を解析し,トレーニングデータや透かし,あるいは特定のモデルフォーマットから独立して動作することによって,モデル固有の行動シグネチャを抽出する。 TensorGuardは広く採用されているセーフテンソルフォーマットをサポートし、勾配特徴の統計解析を通じて高次元指紋を構築する。これらの指紋は、距離計算による任意のモデル間の直接的なペアワイド類似性評価と、既知のベースモデルを用いたドメイン情報付きセントロイド初期化を用いたK-Meansクラスタリングアルゴリズムによる未知モデルの系統的な家族分類の2つの補完的な機能を実現する。 5つのモデルファミリー(Llama, Qwen, Gemma, Phi, Mistral)にまたがる8つのベースモデルと50のデリバティブからなる58モデルの実験的評価を行った。

関連論文リスト

ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。 ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文参考訳（メタデータ） (2025-07-21T17:02:57Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
A Perplexity and Menger Curvature-Based Approach for Similarity Evaluation of Large Language Models [0.6906005491572401]
LLM(Large Language Models)は、著作権侵害とデータおよびモデル使用における非倫理的慣行に関する懸念を提起している。本稿では,メンガー曲率のパープレキシティ曲線と差を利用したLLM類似度の定量化手法を提案する。
論文参考訳（メタデータ） (2025-04-05T16:04:25Z)
MERLOT: A Distilled LLM-based Mixture-of-Experts Framework for Scalable Encrypted Traffic Classification [19.476061046309052]
本稿では,暗号化されたトラフィック分類に最適化された蒸留大言語モデルのスケーラブルな混合実験(MoE)による改良について述べる。 10のデータセットの実験では、最先端モデルよりも優れた、あるいは競合的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-20T03:01:41Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。 DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-08-01T07:08:11Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
Self-Labeling in Multivariate Causality and Quantification for Adaptive Machine Learning [0.0]
ドメイン適応のための因果関係データストリームを自律的に関連付けるための対話型因果関係に基づく自己ラベル手法を提案した。本稿では,これらの研究課題に対処する自己ラベルフレームワークとその理論的基盤をさらに発展させる。
論文参考訳（メタデータ） (2024-04-08T18:16:22Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。 SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。 SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-06-16T16:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。