論文の概要: Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!
- arxiv url: http://arxiv.org/abs/2507.03014v1
- Date: Wed, 02 Jul 2025 12:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.529383
- Title: Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!
- Title(参考訳): LLMの本質的なフィンガープリント:継続トレーニングは、Aモデルをステアリングするために必要なものではありません!
- Authors: Do-hyeon Yoon, Minsoo Chun, Thomas Allen, Hans Müller, Min Wang, Rajesh Sharma,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングコストが増加し、モデルの再利用が普及するにつれて、重要な著作権と知的財産権の課題に直面している。
本研究は,本質的なモデル特性に基づくロバストフィンガープリントの簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 1.8824463630667776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) face significant copyright and intellectual property challenges as the cost of training increases and model reuse becomes prevalent. While watermarking techniques have been proposed to protect model ownership, they may not be robust to continue training and development, posing serious threats to model attribution and copyright protection. This work introduces a simple yet effective approach for robust LLM fingerprinting based on intrinsic model characteristics. We discover that the standard deviation distributions of attention parameter matrices across different layers exhibit distinctive patterns that remain stable even after extensive continued training. These parameter distribution signatures serve as robust fingerprints that can reliably identify model lineage and detect potential copyright infringement. Our experimental validation across multiple model families demonstrates the effectiveness of our method for model authentication. Notably, our investigation uncovers evidence that a recently Pangu Pro MoE model released by Huawei is derived from Qwen-2.5 14B model through upcycling techniques rather than training from scratch, highlighting potential cases of model plagiarism, copyright violation, and information fabrication. These findings underscore the critical importance of developing robust fingerprinting methods for protecting intellectual property in large-scale model development and emphasize that deliberate continued training alone is insufficient to completely obscure model origins.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングコストが増加し、モデルの再利用が普及するにつれて、重要な著作権と知的財産権の課題に直面している。
ウォーターマーキング技術はモデルの所有権を保護するために提案されているが、トレーニングと開発を続けることは堅牢ではないかもしれない。
本研究は,本質的なモデル特性に基づく,堅牢なLDMフィンガープリントのための簡易かつ効果的なアプローチを提案する。
異なる層にまたがる注目パラメータ行列の標準偏差分布は、広範囲な訓練を継続しても安定な特徴的パターンを示すことが判明した。
これらのパラメータ分布シグネチャは、モデル系統を確実に識別し、潜在的な著作権侵害を検出する堅牢な指紋として機能する。
複数のモデルファミリにまたがる実験的な検証は,モデル認証における本手法の有効性を実証する。
特に、Huaweiが最近リリースしたPangu Pro MoEモデルは、スクラッチからトレーニングではなく、アップサイクリング技術を通じてQwen-2.5 14Bモデルから派生したもので、モデル盗用、著作権侵害、情報作成の可能性を浮き彫りにしている。
これらの知見は、大規模モデル開発において知的財産権を保護するための堅牢な指紋認証手法を開発することの重要性を浮き彫りにし、意図的な継続訓練だけでは、全く不明なモデルの起源に不十分であることを強調した。
関連論文リスト
- Holmes: Towards Effective and Harmless Model Ownership Verification to Personalized Large Vision Models via Decoupling Common Features [54.63343151319368]
本稿では、類似の共通特徴を分離し、パーソナライズされたモデルに対する無害モデルオーナシップ検証手法を提案する。
最初の段階では、データセット固有の機能を中断しながら、犠牲者モデルの共通の特徴を保持するシャドウモデルを作成します。
その後、メタ分類器が訓練され、被害者のデータセット固有の特徴を含む不審なモデルを決定することで、盗まれたモデルを特定する。
論文 参考訳(メタデータ) (2025-06-24T15:40:11Z) - MEraser: An Effective Fingerprint Erasure Approach for Large Language Models [19.8112399985437]
大規模言語モデル(LLM)は、様々な分野に広まり、モデルの所有と知的財産保護に関する重要な懸念を提起している。
モデル性能を維持しつつ, LLMからバックドアベースの指紋を効果的に除去する手法であるMismatched Eraser(MEraser)を提案する。
論文 参考訳(メタデータ) (2025-06-14T15:48:53Z) - RAP-SM: Robust Adversarial Prompt via Shadow Models for Copyright Verification of Large Language Models [12.459241957411669]
RAP-SMは、大規模な言語モデル全体の公開指紋を抽出する新しいフレームワークである。
実験の結果,RAP-SMは異なるモデル間の固有共通点を効果的に捉えていることがわかった。
論文 参考訳(メタデータ) (2025-05-08T03:21:58Z) - MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models [1.9249287163937978]
モデルマージを継続することのできる頑健な指紋を埋め込むための新しいフィンガープリント手法であるMergePrintを提案する。
MergePrintはブラックボックスのオーナシップの検証を可能にする。モデルが特定の指紋入力に対してターゲット出力を生成するかどうかのみを所有者が確認する必要がある。
論文 参考訳(メタデータ) (2024-10-11T08:00:49Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging [25.327483618051378]
モデル統合シナリオにおけるIP保護手法の堅牢性に関する最初の研究を行う。
実験結果から,現在のLarge Language Model (LLM) の透かし技術は統合されたモデルでは生き残れないことが示唆された。
本研究の目的は,モデルIP保護手法の堅牢性評価において,モデルマージが不可欠であることを示すことである。
論文 参考訳(メタデータ) (2024-04-08T04:30:33Z) - Towards Scalable and Robust Model Versioning [30.249607205048125]
ディープラーニングモデルへのアクセスを目的とした悪意ある侵入が増えている。
異なる攻撃特性を持つモデルの複数バージョンを生成する方法を示す。
モデル学習データにパラメータ化された隠れ分布を組み込むことでこれを実現できることを示す。
論文 参考訳(メタデータ) (2024-01-17T19:55:49Z) - Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large
Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文 参考訳(メタデータ) (2023-06-15T17:42:48Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Artificial Fingerprinting for Generative Models: Rooting Deepfake
Attribution in Training Data [64.65952078807086]
光現実性画像生成は、GAN(Generative Adversarial Network)のブレークスルーにより、新たな品質レベルに達した。
しかし、このようなディープフェイクのダークサイド、すなわち生成されたメディアの悪意ある使用は、視覚的誤報に関する懸念を提起する。
我々は,モデルに人工指紋を導入することによって,深度検出の積極的な,持続可能なソリューションを模索する。
論文 参考訳(メタデータ) (2020-07-16T16:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。