論文の概要: Double-I Watermark: Protecting Model Copyright for LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2402.14883v2
- Date: Wed, 29 May 2024 11:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 23:21:17.993024
- Title: Double-I Watermark: Protecting Model Copyright for LLM Fine-tuning
- Title(参考訳): ダブルIウォーターマーク : LLMファインチューニングのためのモデル著作権保護
- Authors: Shen Li, Liuyi Yao, Jinyang Gao, Lan Zhang, Yaliang Li,
- Abstract要約: 提案手法は、微調整中に特定の透かし情報をカスタマイズされたモデルに効果的に注入する。
提案手法を各種微調整法で評価し, その無害性, 頑健性, 独特性, 不受容性, 妥当性を定量的および定性的な分析により検証した。
- 参考スコア(独自算出の注目度): 45.09125828947013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To support various applications, a prevalent and efficient approach for business owners is leveraging their valuable datasets to fine-tune a pre-trained LLM through the API provided by LLM owners or cloud servers. However, this process carries a substantial risk of model misuse, potentially resulting in severe economic consequences for business owners. Thus, safeguarding the copyright of these customized models during LLM fine-tuning has become an urgent practical requirement, but there are limited existing solutions to provide such protection. To tackle this pressing issue, we propose a novel watermarking approach named ``Double-I watermark''. Specifically, based on the instruct-tuning data, two types of backdoor data paradigms are introduced with trigger in the instruction and the input, respectively. By leveraging LLM's learning capability to incorporate customized backdoor samples into the dataset, the proposed approach effectively injects specific watermarking information into the customized model during fine-tuning, which makes it easy to inject and verify watermarks in commercial scenarios. We evaluate the proposed "Double-I watermark" under various fine-tuning methods, demonstrating its harmlessness, robustness, uniqueness, imperceptibility, and validity through both quantitative and qualitative analyses.
- Abstract(参考訳): さまざまなアプリケーションをサポートするために、ビジネスオーナーにとって一般的で効率的なアプローチは、LLMオーナやクラウドサーバが提供するAPIを通じて、トレーニング済みのLLMを微調整するための貴重なデータセットを活用している。
しかし、このプロセスはモデル誤用のかなりのリスクを伴い、ビジネスオーナーに深刻な経済的影響をもたらす可能性がある。
したがって、LLM微調整中にこれらのカスタマイズされたモデルの著作権を保護することは、緊急の現実的な要件となっているが、そのような保護を提供するための既存のソリューションは限られている。
このプレス問題に対処するため、「ダブルI透かし」と呼ばれる新しい透かし手法を提案する。
具体的には、インストラクションチューニングデータに基づいて、2種類のバックドアデータパラダイムを導入し、それぞれインストラクションと入力をトリガーとする。
LLMの学習機能を活用して、データセットにカスタマイズされたバックドアサンプルを組み込むことにより、細調整中に特定の透かし情報をカスタマイズされたモデルに効果的に注入することで、商業シナリオにおける透かしの注入と検証が容易になる。
提案手法を各種微調整法で評価し, その無害性, 頑健性, 独特性, 不受容性, 妥当性を定量的および定性的な分析により検証した。
関連論文リスト
- Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA [67.68750063537482]
拡散モデルは高品質な画像の生成において顕著な成功を収めた。
最近の研究は、SDモデルがポストホック法医学のための透かし付きコンテンツを出力できるようにすることを目的としている。
このシナリオにおける最初の実装としてtextttmethod を提案する。
論文 参考訳(メタデータ) (2024-05-18T01:25:47Z) - Adaptive and robust watermark against model extraction attack [0.0]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - No Free Lunch in LLM Watermarking: Trade-offs in Watermarking Design Choices [20.20770405297239]
LLM透かし方式における一般的な設計選択は、結果のシステムが驚くほど攻撃を受けやすいことを示す。
本稿では, LLM透かしのガイドラインと防御について述べる。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - Watermarking Vision-Language Pre-trained Models for Multi-modal
Embedding as a Service [19.916419258812077]
マーカと呼ばれる言語に対して,ロバストな埋め込み型透かし手法を提案する。
そこで本研究では,バックドアトリガと組込み分布の両方に基づく共同著作権検証戦略を提案する。
論文 参考訳(メタデータ) (2023-11-10T04:27:27Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Non-Transferable Learning: A New Approach for Model Verification and
Authorization [7.686781778077341]
オーナシップの認証と使用許可という2つの一般的な保護方法がある。
学習モデルにおける排他的データ表現をキャプチャする新しい手法であるNon-Transferable Learning (NTL)を提案する。
我々のNTLベースの認証アプローチは、不正なデータに対する使用性能を著しく低下させることで、データ中心の使用保護を提供します。
論文 参考訳(メタデータ) (2021-06-13T04:57:16Z) - Removing Backdoor-Based Watermarks in Neural Networks with Limited Data [26.050649487499626]
ディープモデルの取引は、今日では非常に需要が高く、利益を上げている。
ナイーブ・トレーディング・スキームは 一般的に 著作権と信頼性の問題に関連する 潜在的なリスクを伴います
WILDと呼ばれる限られたデータを用いたバックドア型透かし除去フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-02T06:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。