論文の概要: Beyond Dataset Watermarking: Model-Level Copyright Protection for Code Summarization Models
- arxiv url: http://arxiv.org/abs/2410.14102v1
- Date: Fri, 18 Oct 2024 00:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:56.195581
- Title: Beyond Dataset Watermarking: Model-Level Copyright Protection for Code Summarization Models
- Title(参考訳): データセットの透かしを超えて:コードの要約モデルのためのモデルレベル著作権保護
- Authors: Jiale Zhang, Haoxuan Li, Di Wu, Xiaobing Sun, Qinghua Lu, Guodong Long,
- Abstract要約: CSMは、許可されていないユーザによる搾取のリスクに直面します。
伝統的な透かし法はトリガーと透かしの特徴を別々に設計する必要がある。
モデルレベルの新しい電子透かし埋め込み方式であるModMarkを提案する。
- 参考スコア(独自算出の注目度): 37.817691840557984
- License:
- Abstract: Code Summarization Model (CSM) has been widely used in code production, such as online and web programming for PHP and Javascript. CSMs are essential tools in code production, enhancing software development efficiency and driving innovation in automated code analysis. However, CSMs face risks of exploitation by unauthorized users, particularly in an online environment where CSMs can be easily shared and disseminated. To address these risks, digital watermarks offer a promising solution by embedding imperceptible signatures within the models to assert copyright ownership and track unauthorized usage. Traditional watermarking for CSM copyright protection faces two main challenges: 1) dataset watermarking methods require separate design of triggers and watermark features based on the characteristics of different programming languages, which not only increases the computation complexity but also leads to a lack of generalization, 2) existing watermarks based on code style transformation are easily identifiable by automated detection, demonstrating poor concealment. To tackle these issues, we propose ModMark , a novel model-level digital watermark embedding method. Specifically, by fine-tuning the tokenizer, ModMark achieves cross-language generalization while reducing the complexity of watermark design. Moreover, we employ code noise injection techniques to effectively prevent trigger detection. Experimental results show that our method can achieve 100% watermark verification rate across various programming languages' CSMs, and the concealment and effectiveness of ModMark can also be guaranteed.
- Abstract(参考訳): CSM(Code Summarization Model)は、PHPやJavaScriptのオンラインプログラミングやWebプログラミングなど、コード生産で広く使われている。
CSMは、コード生産、ソフトウェア開発の効率の向上、自動コード分析におけるイノベーションの推進に欠かせないツールです。
しかし、CSMは、特にCSMを容易に共有・配布できるオンライン環境において、不正なユーザによる搾取のリスクに直面している。
これらのリスクに対処するため、デジタル透かしは、著作権の所有権を主張し、不正使用を追跡するために、モデルに不可避なシグネチャを埋め込むことによって、有望な解決策を提供する。
CSM著作権保護の伝統的な透かしは2つの課題に直面している。
1) データセットの透かし法では,異なるプログラミング言語の特性に基づいてトリガと透かしの特徴を別々に設計する必要があるため,計算複雑性が増大するだけでなく,一般化の欠如も生じる。
2) コードスタイルの変換に基づく既存の透かしは、自動検出によって容易に識別でき、隠蔽が不十分であることを示す。
これらの課題に対処するために,新しいモデルレベルの電子透かし埋め込み方式であるModMarkを提案する。
具体的には、トークンライザを微調整することで、透かし設計の複雑さを低減しつつ、言語間の一般化を実現する。
さらに、トリガー検出を効果的に防止するために、コードノイズ注入技術を用いる。
実験の結果,提案手法は各種プログラミング言語のCSMに対して100%の透かし検証が可能であり,ModMarkの隠蔽と有効性も保証できることがわかった。
関連論文リスト
- Watermarking Large Language Models and the Generated Content: Opportunities and Challenges [18.01886375229288]
生成型大規模言語モデル(LLM)は知的財産権侵害や機械生成誤報の拡散に懸念を抱いている。
ウォーターマーキングは、所有権を確立し、許可されていない使用を防止し、LLM生成コンテンツの起源を追跡できる有望な手法として機能する。
本稿では,LLMをウォーターマークする際の課題と機会を要約し,共有する。
論文 参考訳(メタデータ) (2024-10-24T18:55:33Z) - ESpeW: Robust Copyright Protection for LLM-based EaaS via Embedding-Specific Watermark [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。
編集はモデル抽出攻撃に対して脆弱であり、著作権保護の緊急の必要性を強調している。
そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T04:34:49Z) - De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - DIP-Watermark: A Double Identity Protection Method Based on Robust Adversarial Watermark [13.007649270429493]
顔認識(FR)システムはプライバシーのリスクを引き起こす。
1つの対策は敵攻撃であり、不正な悪意のあるFRを欺くことである。
トレース可能な対角線透かしに基づく最初の二重識別保護方式を提案する。
論文 参考訳(メタデータ) (2024-04-23T02:50:38Z) - No Free Lunch in LLM Watermarking: Trade-offs in Watermarking Design Choices [20.20770405297239]
LLM透かし方式における一般的な設計選択は、結果のシステムが驚くほど攻撃を受けやすいことを示す。
本稿では, LLM透かしのガイドラインと防御について述べる。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - ClearMark: Intuitive and Robust Model Watermarking via Transposed Model
Training [50.77001916246691]
本稿では,人間の直感的な評価を目的とした最初のDNN透かし手法であるClearMarkを紹介する。
ClearMarkは目に見える透かしを埋め込んで、厳格な値閾値なしで人間の意思決定を可能にする。
8,544ビットの透かし容量は、現存する最強の作品に匹敵する。
論文 参考訳(メタデータ) (2023-10-25T08:16:55Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。