論文の概要: Human-Readable Fingerprint for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.04828v2
- Date: Wed, 7 Feb 2024 11:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:36:42.922337
- Title: Human-Readable Fingerprint for Large Language Models
- Title(参考訳): 大型言語モデルのための可読性指紋
- Authors: Boyi Zeng, Chenghu Zhou, Xinbing Wang, Zhouhan Lin
- Abstract要約: 大型言語モデル(LLM)のための人間可読指紋を導入する。
本手法は,LLMの識別指紋として犬画像を生成し,その外見はLLMのベースモデルを強く表している。
- 参考スコア(独自算出の注目度): 47.952699246648045
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Protecting the copyright of large language models (LLMs) has become crucial
due to their resource-intensive training and accompanying carefully designed
licenses. However, identifying the original base model of an LLM is challenging
due to potential parameter alterations. In this study, we introduce a
human-readable fingerprint for LLMs that uniquely identifies the base model
without exposing model parameters or interfering with training. We first
observe that the vector direction of LLM parameters remains stable after the
model has converged during pretraining, showing negligible perturbations
through subsequent training steps, including continued pretraining, supervised
fine-tuning (SFT), and RLHF, which makes it a sufficient condition to identify
the base model. The necessity is validated by continuing to train an LLM with
an extra term to drive away the model parameters' direction and the model
becomes damaged. However, this direction is vulnerable to simple attacks like
dimension permutation or matrix rotation, which significantly change it without
affecting performance. To address this, leveraging the Transformer structure,
we systematically analyze potential attacks and define three invariant terms
that identify an LLM's base model. We make these invariant terms human-readable
by mapping them to a Gaussian vector using a convolutional encoder and then
converting it into a natural image with StyleGAN2. Our method generates a dog
image as an identity fingerprint for an LLM, where the dog's appearance
strongly indicates the LLM's base model. The fingerprint provides intuitive
information for qualitative discrimination, while the invariant terms can be
employed for quantitative and precise verification. Experimental results across
various LLMs demonstrate the effectiveness of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)の著作権保護は、リソース集約的なトレーニングと、慎重に設計されたライセンスを伴うため、重要になっている。
しかし, LLMの原モデルを特定することは, 潜在的なパラメータ変化のため困難である。
本研究では,モデルパラメータを暴露したり,トレーニングに干渉したりすることなく,基本モデルを一意に識別するLLM用人読指紋を提案する。
まず, LLMパラメータのベクトル方向が, モデルが事前訓練中に収束した後も安定であり, 継続事前訓練, 教師付き微調整(SFT), RLHFなどの訓練段階を通じて無視可能な摂動を示す。
この必要性は、モデルパラメータの方向を追い出すために余分な項でLSMを訓練し続け、モデルが損傷することによって検証される。
しかし、この方向は次元置換や行列回転のような単純な攻撃に弱いため、性能に影響を与えずに大きく変化する。
そこで本研究では,トランスフォーマー構造を利用して,潜在的攻撃を系統的に解析し,LLMのベースモデルを特定する3つの不変項を定義する。
これらの不変項を畳み込みエンコーダを用いてガウスベクトルにマッピングし、それをスタイルガン2で自然画像に変換することで、人間に読めるようにする。
本手法では,犬の外観がllmの基本モデルを強く示すように,llmの識別指紋として犬画像を生成する。
指紋は質的識別のための直感的な情報を提供し、不変項は定量的かつ正確な検証に使用できる。
種々のLLM実験結果から,本手法の有効性が示された。
関連論文リスト
- ProFLingo: A Fingerprinting-based Copyright Protection Scheme for Large Language Models [18.46904928949022]
本稿では,大規模な言語モデルを対象としたブラックボックス指紋認証に基づく著作権保護スキームProFLingoを提案する。
本手法は,疑似モデルにおける逆例の有効性を検証し,元モデルから派生したものかどうかを判定する。
論文 参考訳(メタデータ) (2024-05-03T20:00:40Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Masked Particle Modeling on Sets: Towards Self-Supervised High Energy
Physics Foundation Models [4.515623503184142]
Masked Particle Modeling (MPM) は、無秩序な入力集合上の汎用的、転送可能、再利用可能な表現を学習するための自己教師付き手法である。
本研究では,コライダー物理実験における高エネルギージェットの試料中の方法の有効性について検討した。
論文 参考訳(メタデータ) (2024-01-24T15:46:32Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Differentially Private Decoding in Large Language Models [14.221692239892207]
本稿では,復号段階で既に訓練済みのモデルに適用可能な,単純で分かり易く,計算的に軽量な摂動機構を提案する。
我々の摂動メカニズムはモデルに依存しず、どんな大規模言語モデルとも併用することができる。
論文 参考訳(メタデータ) (2022-05-26T20:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。