論文の概要: HuRef: HUman-REadable Fingerprint for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.04828v1
- Date: Fri, 8 Dec 2023 05:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:09:20.373180
- Title: HuRef: HUman-REadable Fingerprint for Large Language Models
- Title(参考訳): HuRef: 大規模言語モデルのためのHUman対応フィンガープリント
- Authors: Boyi Zeng, Chenghu Zhou, Xinbing Wang, Zhouhan Lin
- Abstract要約: HuRefは、大きな言語モデルのための人間可読指紋である。
本手法は,LLMの識別指紋として犬画像を生成し,その外見はLLMのベースモデルを強く表している。
- 参考スコア(独自算出の注目度): 47.952699246648045
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Protecting the copyright of large language models (LLMs) has become crucial
due to their resource-intensive training and accompanying carefully designed
licenses. However, identifying the original base model of an LLM is challenging
due to potential parameter alterations through fine-tuning or continued
pretraining. In this study, we introduce HuRef, a human-readable fingerprint
for LLMs that uniquely identifies the base model without exposing model
parameters or interfering with training. We first observe that the vector
direction of LLM parameters remains stable after the model has converged during
pretraining, showing negligible perturbations through subsequent training
steps, including continued pretraining, supervised fine-tuning (SFT), and RLHF,
which makes it a sufficient condition to identify the base model. The necessity
is validated by continuing to train an LLM with an extra term to drive away the
model parameters' direction and the model becomes damaged. However, this
direction is vulnerable to simple attacks like dimension permutation or matrix
rotation, which significantly change it without affecting performance. To
address this, leveraging the Transformer structure, we systematically analyze
potential attacks and define three invariant terms that identify an LLM's base
model. We make these invariant terms human-readable by mapping them to a
Gaussian vector using a convolutional encoder and then converting it into a
natural image with StyleGAN2. Our method generates a dog image as an identity
fingerprint for an LLM, where the dog's appearance strongly indicates the LLM's
base model. Experimental results across various LLMs demonstrate the
effectiveness of our method, the generated dog image remains invariant to
different training steps, including SFT, RLHF, or even continued pretraining
with augmented vocabulary in a new language.
- Abstract(参考訳): 大規模言語モデル(LLM)の著作権保護は、リソース集約的なトレーニングと、慎重に設計されたライセンスを伴うため、重要になっている。
しかし,微調整や継続前訓練によるパラメータ変更の可能性から,llmの原ベースモデルの同定は困難である。
本研究では,モデルパラメータを暴露したり,トレーニングに干渉したりすることなく,基本モデルを一意に識別するLLM用人読指紋であるHuRefを紹介する。
まず, LLMパラメータのベクトル方向が, モデルが事前訓練中に収束した後も安定であり, 継続事前訓練, 教師付き微調整(SFT), RLHFなどの訓練段階を通じて無視可能な摂動を示す。
この必要性は、モデルパラメータの方向を追い出すために余分な項でLSMを訓練し続け、モデルが損傷することによって検証される。
しかし、この方向は次元置換や行列回転のような単純な攻撃に弱いため、性能に影響を与えずに大きく変化する。
そこで本研究では,トランスフォーマー構造を利用して,潜在的攻撃を系統的に解析し,LLMのベースモデルを特定する3つの不変項を定義する。
これらの不変項を畳み込みエンコーダを用いてガウスベクトルにマッピングし、それをスタイルガン2で自然画像に変換することで、人間に読めるようにする。
本手法では,犬の外観がllmの基本モデルを強く示すように,llmの識別指紋として犬画像を生成する。
実験結果から,本手法の有効性を実証した犬画像は,sft,rlhf,あるいは新たな言語で拡張語彙を用いた事前学習を継続するなど,異なる訓練ステップに不変であることがわかった。
関連論文リスト
- ProFLingo: A Fingerprinting-based Copyright Protection Scheme for Large Language Models [18.46904928949022]
本稿では,大規模な言語モデルを対象としたブラックボックス指紋認証に基づく著作権保護スキームProFLingoを提案する。
本手法は,疑似モデルにおける逆例の有効性を検証し,元モデルから派生したものかどうかを判定する。
論文 参考訳(メタデータ) (2024-05-03T20:00:40Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Masked Particle Modeling on Sets: Towards Self-Supervised High Energy
Physics Foundation Models [4.515623503184142]
Masked Particle Modeling (MPM) は、無秩序な入力集合上の汎用的、転送可能、再利用可能な表現を学習するための自己教師付き手法である。
本研究では,コライダー物理実験における高エネルギージェットの試料中の方法の有効性について検討した。
論文 参考訳(メタデータ) (2024-01-24T15:46:32Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Differentially Private Decoding in Large Language Models [14.221692239892207]
本稿では,復号段階で既に訓練済みのモデルに適用可能な,単純で分かり易く,計算的に軽量な摂動機構を提案する。
我々の摂動メカニズムはモデルに依存しず、どんな大規模言語モデルとも併用することができる。
論文 参考訳(メタデータ) (2022-05-26T20:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。