論文の概要: Human-Readable Fingerprint for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.04828v2
- Date: Wed, 7 Feb 2024 11:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:36:42.922337
- Title: Human-Readable Fingerprint for Large Language Models
- Title(参考訳): 大型言語モデルのための可読性指紋
- Authors: Boyi Zeng, Chenghu Zhou, Xinbing Wang, Zhouhan Lin
- Abstract要約: 大型言語モデル(LLM)のための人間可読指紋を導入する。
本手法は,LLMの識別指紋として犬画像を生成し,その外見はLLMのベースモデルを強く表している。
- 参考スコア(独自算出の注目度): 47.952699246648045
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Protecting the copyright of large language models (LLMs) has become crucial
due to their resource-intensive training and accompanying carefully designed
licenses. However, identifying the original base model of an LLM is challenging
due to potential parameter alterations. In this study, we introduce a
human-readable fingerprint for LLMs that uniquely identifies the base model
without exposing model parameters or interfering with training. We first
observe that the vector direction of LLM parameters remains stable after the
model has converged during pretraining, showing negligible perturbations
through subsequent training steps, including continued pretraining, supervised
fine-tuning (SFT), and RLHF, which makes it a sufficient condition to identify
the base model. The necessity is validated by continuing to train an LLM with
an extra term to drive away the model parameters' direction and the model
becomes damaged. However, this direction is vulnerable to simple attacks like
dimension permutation or matrix rotation, which significantly change it without
affecting performance. To address this, leveraging the Transformer structure,
we systematically analyze potential attacks and define three invariant terms
that identify an LLM's base model. We make these invariant terms human-readable
by mapping them to a Gaussian vector using a convolutional encoder and then
converting it into a natural image with StyleGAN2. Our method generates a dog
image as an identity fingerprint for an LLM, where the dog's appearance
strongly indicates the LLM's base model. The fingerprint provides intuitive
information for qualitative discrimination, while the invariant terms can be
employed for quantitative and precise verification. Experimental results across
various LLMs demonstrate the effectiveness of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)の著作権保護は、リソース集約的なトレーニングと、慎重に設計されたライセンスを伴うため、重要になっている。
しかし, LLMの原モデルを特定することは, 潜在的なパラメータ変化のため困難である。
本研究では,モデルパラメータを暴露したり,トレーニングに干渉したりすることなく,基本モデルを一意に識別するLLM用人読指紋を提案する。
まず, LLMパラメータのベクトル方向が, モデルが事前訓練中に収束した後も安定であり, 継続事前訓練, 教師付き微調整(SFT), RLHFなどの訓練段階を通じて無視可能な摂動を示す。
この必要性は、モデルパラメータの方向を追い出すために余分な項でLSMを訓練し続け、モデルが損傷することによって検証される。
しかし、この方向は次元置換や行列回転のような単純な攻撃に弱いため、性能に影響を与えずに大きく変化する。
そこで本研究では,トランスフォーマー構造を利用して,潜在的攻撃を系統的に解析し,LLMのベースモデルを特定する3つの不変項を定義する。
これらの不変項を畳み込みエンコーダを用いてガウスベクトルにマッピングし、それをスタイルガン2で自然画像に変換することで、人間に読めるようにする。
本手法では,犬の外観がllmの基本モデルを強く示すように,llmの識別指紋として犬画像を生成する。
指紋は質的識別のための直感的な情報を提供し、不変項は定量的かつ正確な検証に使用できる。
種々のLLM実験結果から,本手法の有効性が示された。
関連論文リスト
- Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - A Fingerprint for Large Language Models [10.63985246068255]
大規模言語モデル(LLM)のための新しいブラックボックスフィンガープリント手法を提案する。
実験結果から,提案手法はPEFT攻撃に対するオーナシップ検証とロバスト性において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-01T12:25:42Z) - ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models [18.46904928949022]
大規模言語モデル(LLM)のためのブラックボックス指紋認証に基づくIP保護スキームProFLingoを提案する。
ProFLingoは、オリジナルのモデルから特定の応答を引き出すクエリを生成し、ユニークな指紋を確立する。
提案手法は,疑似モデルにおけるこれらのクエリの有効性を評価し,元のモデルから派生したものかどうかを判断する。
論文 参考訳(メタデータ) (2024-05-03T20:00:40Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。