論文の概要: Watermarking Pre-trained Language Models with Backdooring
- arxiv url: http://arxiv.org/abs/2210.07543v1
- Date: Fri, 14 Oct 2022 05:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:14:21.888504
- Title: Watermarking Pre-trained Language Models with Backdooring
- Title(参考訳): バックドアを用いた事前学習言語モデルの透かし
- Authors: Chenxi Gu, Chengsong Huang, Xiaoqing Zheng, Kai-Wei Chang, Cho-Jui
Hsieh
- Abstract要約: PLMは、所有者が定義した特定の入力によって引き起こされるバックドアを埋め込むことにより、マルチタスク学習フレームワークで透かしが可能であることを示す。
また,いくつかの稀な単語をトリガーとして用いることに加えて,一般的な単語の組み合わせをバックドアトリガーとして用いることで,検出が容易でないことを示す。
- 参考スコア(独自算出の注目度): 118.14981787949199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models (PLMs) have proven to be a crucial
component of modern natural language processing systems. PLMs typically need to
be fine-tuned on task-specific downstream datasets, which makes it hard to
claim the ownership of PLMs and protect the developer's intellectual property
due to the catastrophic forgetting phenomenon. We show that PLMs can be
watermarked with a multi-task learning framework by embedding backdoors
triggered by specific inputs defined by the owners, and those watermarks are
hard to remove even though the watermarked PLMs are fine-tuned on multiple
downstream tasks. In addition to using some rare words as triggers, we also
show that the combination of common words can be used as backdoor triggers to
avoid them being easily detected. Extensive experiments on multiple datasets
demonstrate that the embedded watermarks can be robustly extracted with a high
success rate and less influenced by the follow-up fine-tuning.
- Abstract(参考訳): 大規模事前学習言語モデル(PLM)は、現代の自然言語処理システムにおいて重要なコンポーネントであることが証明されている。
PLMは通常、タスク固有の下流データセットを微調整する必要があるため、PLMの所有権を主張し、悲惨な忘れ物現象のために開発者の知的財産を保護することは困難である。
PLMは、所有者が定義した特定の入力によって引き起こされるバックドアを埋め込むことで、マルチタスク学習フレームワークで透かしが可能であることを示し、これらの透かしは、複数の下流タスクで微調整されているにもかかわらず、取り外しが困難であることを示す。
また,レアワードをトリガーとして使用するだけでなく,共通語の組み合わせをバックドアトリガーとして使用することで,検出が容易であることを示す。
複数のデータセットに対する広範囲な実験により、埋め込みウォーターマークを高い成功率でロバストに抽出でき、後続の微調整の影響も少ないことが示されている。
関連論文リスト
- WatME: Towards Lossless Watermarking Through Lexical Redundancy [61.55924872561569]
相互排他型透かし(WatME)という新しいアプローチを導入する。
WatMEは、言語モデルの復号過程において利用可能な語彙の使用を動的に最適化する。
本稿では,WatMEが大規模言語モデルのテキスト生成能力を大幅に維持していることを示す理論的解析と実証的証拠を示す。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Performance Trade-offs of Watermarking Large Language Models [28.556397738117617]
各種タスクにおいて,透かし付き大規模言語モデル (LLM) の性能を評価する。
ウォーターマーキングがkクラス分類問題として生じるタスクのパフォーマンスに無視できない影響があることが判明した。
要約や翻訳などの長文生成タスクでは、透かしによる性能の15~20%低下が見られる。
論文 参考訳(メタデータ) (2023-11-16T11:44:58Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - CLOWER: A Pre-trained Language Model with Contrastive Learning over Word
and Character Representations [18.780841483220986]
事前学習型言語モデル(PLM)は、自然言語理解における多くの下流タスクにおいて、顕著なパフォーマンス向上を実現している。
現在のほとんどのモデルは漢字を入力として使用しており、中国語の単語に含まれる意味情報をエンコードすることができない。
本稿では,コントラッシブ・ラーニング・オーバーワード(Contrastive Learning Over Word)とチャラクタ表現(character representations)を採用した,シンプルで効果的なPLM CLOWERを提案する。
論文 参考訳(メタデータ) (2022-08-23T09:52:34Z) - Removing Backdoor-Based Watermarks in Neural Networks with Limited Data [26.050649487499626]
ディープモデルの取引は、今日では非常に需要が高く、利益を上げている。
ナイーブ・トレーディング・スキームは 一般的に 著作権と信頼性の問題に関連する 潜在的なリスクを伴います
WILDと呼ばれる限られたデータを用いたバックドア型透かし除去フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-02T06:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。