論文の概要: Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Model Watermarking
- arxiv url: http://arxiv.org/abs/2409.10570v2
- Date: Tue, 15 Apr 2025 08:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:05:19.649940
- Title: Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Model Watermarking
- Title(参考訳): 医学訓練済み言語モデルの著作権保護:訓練不要のバックドアモデル透かし
- Authors: Cong Kong, Rui Xu, Weixi Chen, Jiawei Chen, Zhaoxia Yin,
- Abstract要約: 医療用事前学習言語モデル(Med-PLMs)のためのトレーニングフリーバックドアモデル透かしを提案する。
提案手法は低周波単語をトリガーとして使用し,モデルの単語埋め込み層への埋め込みを特定の医療用語に置き換えることで透かしを埋め込む。
医用下流業務における透かし手法の優れた効果を示す実験を行った。
- 参考スコア(独自算出の注目度): 10.458357346876586
- License:
- Abstract: With the advancement of intelligent healthcare, medical pre-trained language models (Med-PLMs) have emerged and demonstrated significant effectiveness in downstream medical tasks. While these models are valuable assets, they are vulnerable to misuse and theft, requiring copyright protection. However, existing watermarking methods for pre-trained language models (PLMs) cannot be directly applied to Med-PLMs due to domain-task mismatch and inefficient watermark embedding. To fill this gap, we propose the first training-free backdoor model watermarking for Med-PLMs. Our method employs low-frequency words as triggers, embedding the watermark by replacing their embeddings in the model's word embedding layer with those of specific medical terms. The watermarked Med-PLMs produce the same output for triggers as for the corresponding specified medical terms. We leverage this unique mapping to design tailored watermark extraction schemes for different downstream tasks, thereby addressing the challenge of domain-task mismatch in previous methods. Experiments demonstrate superior effectiveness of our watermarking method across medical downstream tasks. Moreover, the method exhibits robustness against model extraction, pruning, fusion-based backdoor removal attacks, while maintaining high efficiency with 10-second watermark embedding.
- Abstract(参考訳): インテリジェントヘルスケアの進歩に伴い、医療事前訓練言語モデル(Med-PLMs)が出現し、下流医療タスクにおいて顕著な効果が示された。
これらのモデルは価値ある資産であるが、悪用や盗難に対して脆弱であり、著作権保護を必要とする。
しかし,プレトレーニング言語モデル(PLM)の既存の透かし手法は,ドメイン・タスクミスマッチや非効率な透かし埋め込みにより直接Med-PLMに適用することはできない。
このギャップを埋めるために,Med-PLMのためのトレーニング不要なバックドアモデル透かしを提案する。
提案手法は低周波単語をトリガーとして使用し,モデルの単語埋め込み層への埋め込みを特定の医療用語に置き換えることで透かしを埋め込む。
ウォーターマークされたメド-PLMは、対応する特定の医学用語と同じトリガーの出力を生成する。
このユニークなマッピングを利用して、異なる下流タスクに適した透かし抽出方式を設計し、従来手法におけるドメイン・タスクミスマッチの課題に対処する。
医用下流業務における透かし手法の優れた効果を示す実験を行った。
さらに, モデル抽出, プルーニング, 核融合によるバックドア除去攻撃に対して, 10秒の透かし埋め込みで高い効率を保ちながら頑健性を示す。
関連論文リスト
- Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation? [75.99961894619986]
本稿では,学生モデルが知識蒸留により,透かしの継承を回避しつつ,教師モデルの能力を獲得することができるかどうかを考察する。
本稿では,未ターゲットおよび目標とするトレーニングデータパラフレージング(UP,TP)による蒸留前除去と,推論時透かし中和(WN)による蒸留後除去の2つのカテゴリを提案する。
論文 参考訳(メタデータ) (2025-02-17T09:34:19Z) - SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models [77.80595722480074]
SleeperMarkは、回復力のある透かしをT2I拡散モデルに埋め込むように設計された新しいフレームワークである。
モデルは、学習したセマンティック概念から透かし情報を切り離し、埋め込み透かしを保持することができる。
各種拡散モデルにおけるSleeperMarkの有効性について実験を行った。
論文 参考訳(メタデータ) (2024-12-06T08:44:18Z) - Exploiting Watermark-Based Defense Mechanisms in Text-to-Image Diffusion Models for Unauthorized Data Usage [14.985938758090763]
安定拡散のようなテキストと画像の拡散モデルは、高品質な画像を生成するのに例外的な可能性を示している。
近年の研究では、これらのモデルのトレーニングに不正データを使用することが懸念されており、知的財産権侵害やプライバシー侵害につながる可能性がある。
本稿では、拡散過程を利用して保護された入力に対して制御された画像を生成するRATTANを提案する。
論文 参考訳(メタデータ) (2024-11-22T22:28:19Z) - Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - ESpeW: Robust Copyright Protection for LLM-based EaaS via Embedding-Specific Watermark [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。
編集はモデル抽出攻撃に対して脆弱であり、著作権保護の緊急の必要性を強調している。
そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T04:34:49Z) - No Free Lunch in LLM Watermarking: Trade-offs in Watermarking Design Choices [20.20770405297239]
LLM透かし方式における一般的な設計選択は、結果のシステムが驚くほど攻撃を受けやすいことを示す。
本稿では, LLM透かしのガイドラインと防御について述べる。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - On Function-Coupled Watermarks for Deep Neural Networks [15.478746926391146]
本稿では,透かし除去攻撃に対して効果的に防御できる新しいDNN透かし法を提案する。
私たちの重要な洞察は、透かしとモデル機能の結合を強化することです。
その結果,アグレッシブ・ウォーターマーク除去攻撃による100%透かし認証の成功率を示した。
論文 参考訳(メタデータ) (2023-02-08T05:55:16Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。