Fugu-MT 論文翻訳(概要): Human-Readable Fingerprint for Large Language Models

論文の概要: Human-Readable Fingerprint for Large Language Models

arxiv url: http://arxiv.org/abs/2312.04828v2
Date: Wed, 7 Feb 2024 11:01:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 19:36:42.922337
Title: Human-Readable Fingerprint for Large Language Models
Title（参考訳）: 大型言語モデルのための可読性指紋
Authors: Boyi Zeng, Chenghu Zhou, Xinbing Wang, Zhouhan Lin
Abstract要約: 大型言語モデル(LLM)のための人間可読指紋を導入する。本手法は,LLMの識別指紋として犬画像を生成し,その外見はLLMのベースモデルを強く表している。
参考スコア（独自算出の注目度）: 47.952699246648045
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Protecting the copyright of large language models (LLMs) has become crucial due to their resource-intensive training and accompanying carefully designed licenses. However, identifying the original base model of an LLM is challenging due to potential parameter alterations. In this study, we introduce a human-readable fingerprint for LLMs that uniquely identifies the base model without exposing model parameters or interfering with training. We first observe that the vector direction of LLM parameters remains stable after the model has converged during pretraining, showing negligible perturbations through subsequent training steps, including continued pretraining, supervised fine-tuning (SFT), and RLHF, which makes it a sufficient condition to identify the base model. The necessity is validated by continuing to train an LLM with an extra term to drive away the model parameters' direction and the model becomes damaged. However, this direction is vulnerable to simple attacks like dimension permutation or matrix rotation, which significantly change it without affecting performance. To address this, leveraging the Transformer structure, we systematically analyze potential attacks and define three invariant terms that identify an LLM's base model. We make these invariant terms human-readable by mapping them to a Gaussian vector using a convolutional encoder and then converting it into a natural image with StyleGAN2. Our method generates a dog image as an identity fingerprint for an LLM, where the dog's appearance strongly indicates the LLM's base model. The fingerprint provides intuitive information for qualitative discrimination, while the invariant terms can be employed for quantitative and precise verification. Experimental results across various LLMs demonstrate the effectiveness of our method.
Abstract（参考訳）: 大規模言語モデル(LLM)の著作権保護は、リソース集約的なトレーニングと、慎重に設計されたライセンスを伴うため、重要になっている。しかし, LLMの原モデルを特定することは, 潜在的なパラメータ変化のため困難である。本研究では,モデルパラメータを暴露したり,トレーニングに干渉したりすることなく,基本モデルを一意に識別するLLM用人読指紋を提案する。まず, LLMパラメータのベクトル方向が, モデルが事前訓練中に収束した後も安定であり, 継続事前訓練, 教師付き微調整(SFT), RLHFなどの訓練段階を通じて無視可能な摂動を示す。この必要性は、モデルパラメータの方向を追い出すために余分な項でLSMを訓練し続け、モデルが損傷することによって検証される。しかし、この方向は次元置換や行列回転のような単純な攻撃に弱いため、性能に影響を与えずに大きく変化する。そこで本研究では,トランスフォーマー構造を利用して,潜在的攻撃を系統的に解析し,LLMのベースモデルを特定する3つの不変項を定義する。これらの不変項を畳み込みエンコーダを用いてガウスベクトルにマッピングし、それをスタイルガン2で自然画像に変換することで、人間に読めるようにする。本手法では,犬の外観がllmの基本モデルを強く示すように,llmの識別指紋として犬画像を生成する。指紋は質的識別のための直感的な情報を提供し、不変項は定量的かつ正確な検証に使用できる。種々のLLM実験結果から,本手法の有効性が示された。

関連論文リスト

LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Model Inversion in Split Learning for Personalized LLMs: New Insights from Information Bottleneck Theory [11.83473842859642]
この研究は、パーソナライズされたLLMのための分割学習フレームワークにおいて、モデル反転攻撃を識別する最初のものである。本稿では,第1部が埋め込み空間に表現を投影する2段階攻撃システムを提案し,第2部は生成モデルを用いて埋め込み空間からテキストを復元する。
論文参考訳（メタデータ） (2025-01-10T13:47:13Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
A Fingerprint for Large Language Models [10.63985246068255]
大規模言語モデル(LLM)のための新しいブラックボックスフィンガープリント手法を提案する。実験結果から,提案手法はPEFT攻撃に対するオーナシップ検証とロバスト性において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-07-01T12:25:42Z)
ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models [18.46904928949022]
大規模言語モデル(LLM)のためのブラックボックス指紋認証に基づくIP保護スキームProFLingoを提案する。 ProFLingoは、オリジナルのモデルから特定の応答を引き出すクエリを生成し、ユニークな指紋を確立する。提案手法は,疑似モデルにおけるこれらのクエリの有効性を評価し,元のモデルから派生したものかどうかを判断する。
論文参考訳（メタデータ） (2024-05-03T20:00:40Z)
Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文参考訳（メタデータ） (2024-04-27T05:49:11Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。 11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文参考訳（メタデータ） (2024-01-21T09:51:45Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文参考訳（メタデータ） (2023-11-08T18:59:54Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。