論文の概要: Ghost in the Transformer: Tracing LLM Lineage with SVD-Fingerprint
- arxiv url: http://arxiv.org/abs/2511.06390v2
- Date: Mon, 17 Nov 2025 16:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.559659
- Title: Ghost in the Transformer: Tracing LLM Lineage with SVD-Fingerprint
- Title(参考訳): トランスフォーマーのゴースト:SVD-FingerprintによるLLMラインの追跡
- Authors: Suqing Wang, Ziyang Ma, Xinyi Li, Zuchao Li,
- Abstract要約: 大規模言語モデル(LLM)は急速に進歩し、様々な分野に広く採用されている。
多くの開発者は、既存のオープンソースモデルを微調整するか修正するかを選択する。
公的なモデルから明らかに派生したものの、オリジナルのトレーニングを誤って主張する者もいる。
これにより知的財産権保護への懸念が高まっている。
- 参考スコア(独自算出の注目度): 40.05267673405802
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have rapidly advanced and are widely adopted across diverse fields. Due to the substantial computational cost and data requirements of training from scratch, many developers choose to fine-tune or modify existing open-source models. While most adhere to open-source licenses, some falsely claim original training despite clear derivation from public models. This raises pressing concerns about intellectual property protection and highlights the need for reliable methods to verify model provenance. In this paper, we propose GhostSpec, a lightweight yet effective method for verifying LLM lineage without access to training data or modification of model behavior. Our approach constructs compact and robust fingerprints by applying singular value decomposition (SVD) to invariant products of internal attention weight matrices, effectively capturing the structural identity of a model. Unlike watermarking or output-based methods, GhostSpec is fully data-free, non-invasive, and computationally efficient. It demonstrates strong robustness to sequential fine-tuning, pruning, block expansion, and even adversarial transformations. Extensive experiments show that GhostSpec can reliably trace the lineage of transformed models with minimal overhead. By offering a practical solution for model verification and reuse tracking, our method contributes to the protection of intellectual property and fosters a transparent, trustworthy ecosystem for large-scale language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に進歩し、様々な分野に広く採用されている。
スクラッチからトレーニングを行うためのかなりの計算コストとデータ要件のため、多くの開発者は既存のオープンソースモデルを微調整するか修正するかを選択します。
多くはオープンソースライセンスに準拠しているが、一部では、公開モデルから明らかに派生したものの、オリジナルのトレーニングを誤って主張する。
これにより知的財産権保護に対する懸念が高まり、モデルの証明のための信頼性の高い方法の必要性が強調される。
本稿では,学習データへのアクセスやモデル動作の変更を伴わない,軽量かつ効果的なLCM系統検証手法であるGhostSpecを提案する。
本手法は,内部注目重量行列の不変積に特異値分解(SVD)を適用し,モデルの構造的同一性を効果的に捉えることによって,コンパクトで堅牢な指紋を構築する。
透かしや出力ベースの方法とは異なり、GhostSpecは完全にデータフリーで、非侵襲的で、計算的に効率的である。
シーケンシャルな微調整、刈り込み、ブロック展開、さらには対向変換に対して強い堅牢性を示す。
大規模な実験によると、GhostSpecは最小限のオーバーヘッドで変換されたモデルの系統を確実にトレースできる。
モデル検証と再利用追跡のための実用的なソリューションを提供することで,知的財産の保護に寄与し,大規模言語モデルのための透明で信頼性の高いエコシステムを育成する。
関連論文リスト
- Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models [18.46904928949022]
大規模言語モデル(LLM)のためのブラックボックス指紋認証に基づくIP保護スキームProFLingoを提案する。
ProFLingoは、オリジナルのモデルから特定の応答を引き出すクエリを生成し、ユニークな指紋を確立する。
提案手法は,疑似モデルにおけるこれらのクエリの有効性を評価し,元のモデルから派生したものかどうかを判断する。
論文 参考訳(メタデータ) (2024-05-03T20:00:40Z) - HuRef: HUman-REadable Fingerprint for Large Language Models [44.9820558213721]
HuRefは、大きな言語モデルのための人間可読指紋である。
トレーニングやモデルパラメータを公開することなく、ベースモデルを独自に識別する。
論文 参考訳(メタデータ) (2023-12-08T05:01:47Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。