論文の概要: Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!
- arxiv url: http://arxiv.org/abs/2507.03014v1
- Date: Wed, 02 Jul 2025 12:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.529383
- Title: Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!
- Title(参考訳): LLMの本質的なフィンガープリント:継続トレーニングは、Aモデルをステアリングするために必要なものではありません!
- Authors: Do-hyeon Yoon, Minsoo Chun, Thomas Allen, Hans Müller, Min Wang, Rajesh Sharma,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングコストが増加し、モデルの再利用が普及するにつれて、重要な著作権と知的財産権の課題に直面している。
本研究は,本質的なモデル特性に基づくロバストフィンガープリントの簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 1.8824463630667776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) face significant copyright and intellectual property challenges as the cost of training increases and model reuse becomes prevalent. While watermarking techniques have been proposed to protect model ownership, they may not be robust to continue training and development, posing serious threats to model attribution and copyright protection. This work introduces a simple yet effective approach for robust LLM fingerprinting based on intrinsic model characteristics. We discover that the standard deviation distributions of attention parameter matrices across different layers exhibit distinctive patterns that remain stable even after extensive continued training. These parameter distribution signatures serve as robust fingerprints that can reliably identify model lineage and detect potential copyright infringement. Our experimental validation across multiple model families demonstrates the effectiveness of our method for model authentication. Notably, our investigation uncovers evidence that a recently Pangu Pro MoE model released by Huawei is derived from Qwen-2.5 14B model through upcycling techniques rather than training from scratch, highlighting potential cases of model plagiarism, copyright violation, and information fabrication. These findings underscore the critical importance of developing robust fingerprinting methods for protecting intellectual property in large-scale model development and emphasize that deliberate continued training alone is insufficient to completely obscure model origins.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングコストが増加し、モデルの再利用が普及するにつれて、重要な著作権と知的財産権の課題に直面している。
ウォーターマーキング技術はモデルの所有権を保護するために提案されているが、トレーニングと開発を続けることは堅牢ではないかもしれない。
本研究は,本質的なモデル特性に基づく,堅牢なLDMフィンガープリントのための簡易かつ効果的なアプローチを提案する。
異なる層にまたがる注目パラメータ行列の標準偏差分布は、広範囲な訓練を継続しても安定な特徴的パターンを示すことが判明した。
これらのパラメータ分布シグネチャは、モデル系統を確実に識別し、潜在的な著作権侵害を検出する堅牢な指紋として機能する。
複数のモデルファミリにまたがる実験的な検証は,モデル認証における本手法の有効性を実証する。
特に、Huaweiが最近リリースしたPangu Pro MoEモデルは、スクラッチからトレーニングではなく、アップサイクリング技術を通じてQwen-2.5 14Bモデルから派生したもので、モデル盗用、著作権侵害、情報作成の可能性を浮き彫りにしている。
これらの知見は、大規模モデル開発において知的財産権を保護するための堅牢な指紋認証手法を開発することの重要性を浮き彫りにし、意図的な継続訓練だけでは、全く不明なモデルの起源に不十分であることを強調した。
関連論文リスト
- A Behavioral Fingerprint for Large Language Models: Provenance Tracking via Refusal Vectors [43.11304710234668]
安全アライメントによって引き起こされる行動パターンを活用する新しいフィンガープリントフレームワークを提案する。
76の子孫モデルを対象とした大規模識別タスクにおいて,本手法は正しいモデル群を同定する際の精度を100%向上する。
本稿では,このプライベートフィンガープリントを,公開で検証可能なプライバシー保護アーティファクトに変換するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2026-02-10T05:57:35Z) - Are Robust LLM Fingerprints Adversarially Robust? [31.998822577243867]
まず、モデルフィンガープリントに対する具体的な、実用的な脅威モデルを定義する。
次に、既存のモデルフィンガープリント方式を批判的に見て、その基本的な脆弱性を特定します。
これらに基づいて,各脆弱性に適した適応的敵攻撃を開発する。
論文 参考訳(メタデータ) (2025-09-30T17:47:09Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - AuthPrint: Fingerprinting Generative Models Against Malicious Model Providers [5.450474861880874]
本稿では,認証モデルの出力空間から隠れ指紋を抽出し,検知器を訓練する信頼性検証器を提案する。
検証中、この検出器は、特別なハードウェアやモデル修正を必要とせずに、新しい出力が認定されたモデルと一致しているかどうかを判断できる。
GANと拡散モデルの両方でFPR@95%TPRをほぼゼロとする実験を行った。
論文 参考訳(メタデータ) (2025-08-06T12:17:38Z) - Holmes: Towards Effective and Harmless Model Ownership Verification to Personalized Large Vision Models via Decoupling Common Features [54.63343151319368]
本稿では、類似の共通特徴を分離し、パーソナライズされたモデルに対する無害モデルオーナシップ検証手法を提案する。
最初の段階では、データセット固有の機能を中断しながら、犠牲者モデルの共通の特徴を保持するシャドウモデルを作成します。
その後、メタ分類器が訓練され、被害者のデータセット固有の特徴を含む不審なモデルを決定することで、盗まれたモデルを特定する。
論文 参考訳(メタデータ) (2025-06-24T15:40:11Z) - MEraser: An Effective Fingerprint Erasure Approach for Large Language Models [19.8112399985437]
大規模言語モデル(LLM)は、様々な分野に広まり、モデルの所有と知的財産保護に関する重要な懸念を提起している。
モデル性能を維持しつつ, LLMからバックドアベースの指紋を効果的に除去する手法であるMismatched Eraser(MEraser)を提案する。
論文 参考訳(メタデータ) (2025-06-14T15:48:53Z) - RAP-SM: Robust Adversarial Prompt via Shadow Models for Copyright Verification of Large Language Models [12.459241957411669]
RAP-SMは、大規模な言語モデル全体の公開指紋を抽出する新しいフレームワークである。
実験の結果,RAP-SMは異なるモデル間の固有共通点を効果的に捉えていることがわかった。
論文 参考訳(メタデータ) (2025-05-08T03:21:58Z) - MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models [1.9249287163937978]
モデルマージを継続することのできる頑健な指紋を埋め込むための新しいフィンガープリント手法であるMergePrintを提案する。
MergePrintはブラックボックスのオーナシップの検証を可能にする。モデルが特定の指紋入力に対してターゲット出力を生成するかどうかのみを所有者が確認する必要がある。
論文 参考訳(メタデータ) (2024-10-11T08:00:49Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging [25.327483618051378]
モデル統合シナリオにおけるIP保護手法の堅牢性に関する最初の研究を行う。
実験結果から,現在のLarge Language Model (LLM) の透かし技術は統合されたモデルでは生き残れないことが示唆された。
本研究の目的は,モデルIP保護手法の堅牢性評価において,モデルマージが不可欠であることを示すことである。
論文 参考訳(メタデータ) (2024-04-08T04:30:33Z) - Towards Scalable and Robust Model Versioning [30.249607205048125]
ディープラーニングモデルへのアクセスを目的とした悪意ある侵入が増えている。
異なる攻撃特性を持つモデルの複数バージョンを生成する方法を示す。
モデル学習データにパラメータ化された隠れ分布を組み込むことでこれを実現できることを示す。
論文 参考訳(メタデータ) (2024-01-17T19:55:49Z) - Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large
Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文 参考訳(メタデータ) (2023-06-15T17:42:48Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Artificial Fingerprinting for Generative Models: Rooting Deepfake
Attribution in Training Data [64.65952078807086]
光現実性画像生成は、GAN(Generative Adversarial Network)のブレークスルーにより、新たな品質レベルに達した。
しかし、このようなディープフェイクのダークサイド、すなわち生成されたメディアの悪意ある使用は、視覚的誤報に関する懸念を提起する。
我々は,モデルに人工指紋を導入することによって,深度検出の積極的な,持続可能なソリューションを模索する。
論文 参考訳(メタデータ) (2020-07-16T16:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。