論文の概要: Beyond Dataset Watermarking: Model-Level Copyright Protection for Code Summarization Models
- arxiv url: http://arxiv.org/abs/2410.14102v1
- Date: Fri, 18 Oct 2024 00:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:56.195581
- Title: Beyond Dataset Watermarking: Model-Level Copyright Protection for Code Summarization Models
- Title(参考訳): データセットの透かしを超えて:コードの要約モデルのためのモデルレベル著作権保護
- Authors: Jiale Zhang, Haoxuan Li, Di Wu, Xiaobing Sun, Qinghua Lu, Guodong Long,
- Abstract要約: CSMは、許可されていないユーザによる搾取のリスクに直面します。
伝統的な透かし法はトリガーと透かしの特徴を別々に設計する必要がある。
モデルレベルの新しい電子透かし埋め込み方式であるModMarkを提案する。
- 参考スコア(独自算出の注目度): 37.817691840557984
- License:
- Abstract: Code Summarization Model (CSM) has been widely used in code production, such as online and web programming for PHP and Javascript. CSMs are essential tools in code production, enhancing software development efficiency and driving innovation in automated code analysis. However, CSMs face risks of exploitation by unauthorized users, particularly in an online environment where CSMs can be easily shared and disseminated. To address these risks, digital watermarks offer a promising solution by embedding imperceptible signatures within the models to assert copyright ownership and track unauthorized usage. Traditional watermarking for CSM copyright protection faces two main challenges: 1) dataset watermarking methods require separate design of triggers and watermark features based on the characteristics of different programming languages, which not only increases the computation complexity but also leads to a lack of generalization, 2) existing watermarks based on code style transformation are easily identifiable by automated detection, demonstrating poor concealment. To tackle these issues, we propose ModMark , a novel model-level digital watermark embedding method. Specifically, by fine-tuning the tokenizer, ModMark achieves cross-language generalization while reducing the complexity of watermark design. Moreover, we employ code noise injection techniques to effectively prevent trigger detection. Experimental results show that our method can achieve 100% watermark verification rate across various programming languages' CSMs, and the concealment and effectiveness of ModMark can also be guaranteed.
- Abstract(参考訳): CSM(Code Summarization Model)は、PHPやJavaScriptのオンラインプログラミングやWebプログラミングなど、コード生産で広く使われている。
CSMは、コード生産、ソフトウェア開発の効率の向上、自動コード分析におけるイノベーションの推進に欠かせないツールです。
しかし、CSMは、特にCSMを容易に共有・配布できるオンライン環境において、不正なユーザによる搾取のリスクに直面している。
これらのリスクに対処するため、デジタル透かしは、著作権の所有権を主張し、不正使用を追跡するために、モデルに不可避なシグネチャを埋め込むことによって、有望な解決策を提供する。
CSM著作権保護の伝統的な透かしは2つの課題に直面している。
1) データセットの透かし法では,異なるプログラミング言語の特性に基づいてトリガと透かしの特徴を別々に設計する必要があるため,計算複雑性が増大するだけでなく,一般化の欠如も生じる。
2) コードスタイルの変換に基づく既存の透かしは、自動検出によって容易に識別でき、隠蔽が不十分であることを示す。
これらの課題に対処するために,新しいモデルレベルの電子透かし埋め込み方式であるModMarkを提案する。
具体的には、トークンライザを微調整することで、透かし設計の複雑さを低減しつつ、言語間の一般化を実現する。
さらに、トリガー検出を効果的に防止するために、コードノイズ注入技術を用いる。
実験の結果,提案手法は各種プログラミング言語のCSMに対して100%の透かし検証が可能であり,ModMarkの隠蔽と有効性も保証できることがわかった。
関連論文リスト
- Robust and Secure Code Watermarking for Large Language Models via ML/Crypto Codesign [15.153228808457628]
RoSeMaryは、LLM生成コードを規制し、知的財産権侵害やソフトウェア開発における不適切な誤用を避ける。
検出性-忠実性-ロマンス性三目的物に付着する高品質な透かしは、符号の低エントロピーの性質のために制限される。
RoSeMaryは、コード機能を保持しながら高い検出精度を達成する。
論文 参考訳(メタデータ) (2025-02-04T07:35:28Z) - ESpeW: Robust Copyright Protection for LLM-based EaaS via Embedding-Specific Watermark [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。
編集はモデル抽出攻撃に対して脆弱であり、著作権保護の緊急の必要性を強調している。
そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T04:34:49Z) - De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - Is The Watermarking Of LLM-Generated Code Robust? [5.48277165801539]
コードベースのコンテキストでは、ウォーターマーキングのテクニックがはるかに脆弱であることを示します。
具体的には、変数リネームやデッドコード挿入といった単純なセマンティック保存変換が、ウォーターマークを効果的に消去できることを示す。
論文 参考訳(メタデータ) (2024-03-24T21:41:29Z) - No Free Lunch in LLM Watermarking: Trade-offs in Watermarking Design Choices [20.20770405297239]
LLM透かし方式における一般的な設計選択は、結果のシステムが驚くほど攻撃を受けやすいことを示す。
本稿では, LLM透かしのガイドラインと防御について述べる。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - ClearMark: Intuitive and Robust Model Watermarking via Transposed Model
Training [50.77001916246691]
本稿では,人間の直感的な評価を目的とした最初のDNN透かし手法であるClearMarkを紹介する。
ClearMarkは目に見える透かしを埋め込んで、厳格な値閾値なしで人間の意思決定を可能にする。
8,544ビットの透かし容量は、現存する最強の作品に匹敵する。
論文 参考訳(メタデータ) (2023-10-25T08:16:55Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。