論文の概要: Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Watermarking
- arxiv url: http://arxiv.org/abs/2409.10570v1
- Date: Sat, 14 Sep 2024 08:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 21:09:36.336705
- Title: Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Watermarking
- Title(参考訳): 医療用事前学習言語モデルの著作権保護:訓練不要のバックドア透かし
- Authors: Cong Kong, Rui Xu, Weixi Chen, Jiawei Chen, Zhaoxia Yin,
- Abstract要約: 医療用事前学習言語モデル(Med-PLMs)のためのトレーニング不要なバックドア透かし手法を提案する。
本手法では,下流タスクのパフォーマンスに影響を与えないトリガーワードとして,稀な特殊シンボルを用いる。
提案手法は,透かしを効果的に抽出しながら高い忠実度が得られることを示す。
- 参考スコア(独自算出の注目度): 10.458357346876586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training language models followed by fine-tuning on specific tasks is standard in NLP, but traditional models often underperform when applied to the medical domain, leading to the development of specialized medical pre-trained language models (Med-PLMs). These models are valuable assets but are vulnerable to misuse and theft, requiring copyright protection. However, no existing watermarking methods are tailored for Med-PLMs, and adapting general PLMs watermarking techniques to the medical domain faces challenges such as task incompatibility, loss of fidelity, and inefficiency. To address these issues, we propose the first training-free backdoor watermarking method for Med-PLMs. Our method uses rare special symbols as trigger words, which do not impact downstream task performance, embedding watermarks by replacing their original embeddings with those of specific medical terms in the Med-PLMs' word embeddings layer. After fine-tuning the watermarked Med-PLMs on various medical downstream tasks, the final models (FMs) respond to the trigger words in the same way they would to the corresponding medical terms. This property can be utilized to extract the watermark. Experiments demonstrate that our method achieves high fidelity while effectively extracting watermarks across various medical downstream tasks. Additionally, our method demonstrates robustness against various attacks and significantly enhances the efficiency of watermark embedding, reducing the embedding time from 10 hours to 10 seconds.
- Abstract(参考訳): 特定のタスクを微調整した事前学習言語モデルは、NLPでは標準的なものであるが、医学領域に適用された場合、伝統的なモデルは性能が劣ることが多く、専門的な医学的事前訓練言語モデル(Med-PLMs)の開発につながっている。
これらのモデルは貴重な資産であるが、誤用や盗難に対して脆弱であり、著作権保護を必要とする。
しかし、既存の透かし手法はMed-PLM向けに調整されておらず、一般的なPLMの透かし手法を医療分野に適用することは、タスク不適合性、忠実性の喪失、非効率性といった課題に直面している。
これらの課題に対処するために,Med-PLMのためのトレーニング不要なバックドア透かし手法を提案する。
本手法では, 下流タスクのパフォーマンスに影響を与えないトリガーワードとして稀な特殊シンボルを用い, 元の埋め込みを, Med-PLMs ワード埋め込み層内の特定の医療用語に置き換えることで, 透かしを埋め込む。
様々な医学的下流のタスクで透かしを施したメド-PLMを微調整した後、最終モデル(FM)は、対応する医学用語と同じ方法でトリガーワードに応答した。
この性質を利用して透かしを抽出することができる。
実験により, 種々の下流の医療課題に対して, 透かしを効果的に抽出し, 高い忠実度が得られることを示した。
さらに, 各種攻撃に対するロバスト性を示し, 透かし埋め込みの効率を大幅に向上させ, 埋め込み時間を10時間から10秒に短縮する。
関連論文リスト
- Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - Watermarking Large Language Models and the Generated Content: Opportunities and Challenges [18.01886375229288]
生成型大規模言語モデル(LLM)は知的財産権侵害や機械生成誤報の拡散に懸念を抱いている。
ウォーターマーキングは、所有権を確立し、許可されていない使用を防止し、LLM生成コンテンツの起源を追跡できる有望な手法として機能する。
本稿では,LLMをウォーターマークする際の課題と機会を要約し,共有する。
論文 参考訳(メタデータ) (2024-10-24T18:55:33Z) - ESpeW: Robust Copyright Protection for LLM-based EaaS via Embedding-Specific Watermark [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。
編集はモデル抽出攻撃に対して脆弱であり、著作権保護の緊急の必要性を強調している。
そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T04:34:49Z) - No Free Lunch in LLM Watermarking: Trade-offs in Watermarking Design Choices [20.20770405297239]
LLM透かし方式における一般的な設計選択は、結果のシステムが驚くほど攻撃を受けやすいことを示す。
本稿では, LLM透かしのガイドラインと防御について述べる。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - On Function-Coupled Watermarks for Deep Neural Networks [15.478746926391146]
本稿では,透かし除去攻撃に対して効果的に防御できる新しいDNN透かし法を提案する。
私たちの重要な洞察は、透かしとモデル機能の結合を強化することです。
その結果,アグレッシブ・ウォーターマーク除去攻撃による100%透かし認証の成功率を示した。
論文 参考訳(メタデータ) (2023-02-08T05:55:16Z) - Watermarking Pre-trained Language Models with Backdooring [118.14981787949199]
PLMは、所有者が定義した特定の入力によって引き起こされるバックドアを埋め込むことにより、マルチタスク学習フレームワークで透かしが可能であることを示す。
また,いくつかの稀な単語をトリガーとして用いることに加えて,一般的な単語の組み合わせをバックドアトリガーとして用いることで,検出が容易でないことを示す。
論文 参考訳(メタデータ) (2022-10-14T05:42:39Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。