論文の概要: Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark
- arxiv url: http://arxiv.org/abs/2305.10036v3
- Date: Fri, 2 Jun 2023 06:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 19:22:18.195497
- Title: Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark
- Title(参考訳): 私のモデルをコピーしてるの?
バックドア透かしによるeaas用大規模言語モデルの著作権保護
- Authors: Wenjun Peng, Jingwei Yi, Fangzhao Wu, Shangxi Wu, Bin Zhu, Lingjuan
Lyu, Binxing Jiao, Tong Xu, Guangzhong Sun, Xing Xie
- Abstract要約: 企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
- 参考スコア(独自算出の注目度): 58.60940048748815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated powerful capabilities in both
text understanding and generation. Companies have begun to offer Embedding as a
Service (EaaS) based on these LLMs, which can benefit various natural language
processing (NLP) tasks for customers. However, previous studies have shown that
EaaS is vulnerable to model extraction attacks, which can cause significant
losses for the owners of LLMs, as training these models is extremely expensive.
To protect the copyright of LLMs for EaaS, we propose an Embedding Watermark
method called EmbMarker that implants backdoors on embeddings. Our method
selects a group of moderate-frequency words from a general text corpus to form
a trigger set, then selects a target embedding as the watermark, and inserts it
into the embeddings of texts containing trigger words as the backdoor. The
weight of insertion is proportional to the number of trigger words included in
the text. This allows the watermark backdoor to be effectively transferred to
EaaS-stealer's model for copyright verification while minimizing the adverse
impact on the original embeddings' utility. Our extensive experiments on
various datasets show that our method can effectively protect the copyright of
EaaS models without compromising service quality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト理解と生成の両方において強力な能力を示している。
企業はこれらのllmをベースにした組み込み・アズ・ア・サービス(eaas)を提供し始めており、様々な自然言語処理(nlp)タスクを顧客に提供することができる。
しかし、以前の研究では、EaaSはモデル抽出攻撃に弱いことが示されており、これらのモデルのトレーニングは非常に高価であるため、LLMの所有者に大きな損失をもたらす可能性がある。
EaaS のための LLM の著作権を保護するため,埋め込みにバックドアを埋め込む Embedding Watermark 法 EmbMarker を提案する。
提案手法は,一般的なテキストコーパスから中頻度単語群を選択してトリガーセットを作成し,そのターゲット埋め込みを透かしとして選択し,トリガーワードを含むテキストの埋め込みをバックドアとして挿入する。
挿入の重みは、テキストに含まれるトリガーワードの数に比例する。
これにより、ウォーターマークバックドアを著作権検証のためにeaas-stealerのモデルに効果的に転送でき、元の埋め込みのユーティリティに対する悪影響を最小限に抑えることができる。
各種データセットに対する広範な実験により,サービス品質を損なうことなく,EaaSモデルの著作権を効果的に保護できることを示す。
関連論文リスト
- Double-I Watermark: Protecting Model Copyright for LLM Fine-tuning [48.37597402174551]
二重I透かし」という新しい透かし手法を提案する。
提案手法はLLMの学習能力を活用することで,微調整中に特定の透かし情報をカスタマイズされたモデルに効果的に注入する。
提案手法を各種微調整法で評価し, その無害性, 頑健性, 独特性, 不受容性, 妥当性を理論的解析および実験的検証により検証した。
論文 参考訳(メタデータ) (2024-02-22T04:55:14Z) - Watermarking Vision-Language Pre-trained Models for Multi-modal
Embedding as a Service [19.916419258812077]
マーカと呼ばれる言語に対して,ロバストな埋め込み型透かし手法を提案する。
そこで本研究では,バックドアトリガと組込み分布の両方に基づく共同著作権検証戦略を提案する。
論文 参考訳(メタデータ) (2023-11-10T04:27:27Z) - A Semantic Invariant Robust Watermark for Large Language Models [29.52715060360837]
大規模言語モデル(LLM)に対する意味不変な透かし手法を提案する。
私たちの研究における透かしのロジットは、前のトークンのセマンティクスによって決定されます。
私たちの透かしには適切なセキュリティの堅牢性があることも示しています。
論文 参考訳(メタデータ) (2023-10-10T06:49:43Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - WASA: WAtermark-based Source Attribution for Large Language
Model-Generated Data [60.759755177369364]
大言語モデル(LLM)は、ソースに関する情報を含む埋め込み透かしを持つ合成テキストを生成する。
本稿では,我々のアルゴリズム設計により鍵特性を満たすWAtermarking for Source Attribution (WASA)フレームワークを提案する。
我々のフレームワークは、効果的な情報源の属性とデータの出所を達成します。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.06066299987106]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Towards Codable Watermarking for Injecting Multi-bit Information to LLM [90.13097900576113]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
LLMの悪用を防ぐために、テキストのソースを特定する必要性が高まっている。
テキスト透かし技術は、LLMによってテキストが生成されるかどうかを識別する上で信頼性があることが証明されている。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Protecting Language Generation Models via Invisible Watermarking [41.532711376512744]
GINSEW(GINSEW)は,テキスト生成モデルが蒸留によって盗難されるのを防ぐ新しい方法である。
GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-02-06T23:42:03Z) - Watermarking Pre-trained Language Models with Backdooring [118.14981787949199]
PLMは、所有者が定義した特定の入力によって引き起こされるバックドアを埋め込むことにより、マルチタスク学習フレームワークで透かしが可能であることを示す。
また,いくつかの稀な単語をトリガーとして用いることに加えて,一般的な単語の組み合わせをバックドアトリガーとして用いることで,検出が容易でないことを示す。
論文 参考訳(メタデータ) (2022-10-14T05:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。