論文の概要: DeCoMa: Detecting and Purifying Code Dataset Watermarks through Dual Channel Code Abstraction
- arxiv url: http://arxiv.org/abs/2504.07002v1
- Date: Wed, 09 Apr 2025 16:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:46.230980
- Title: DeCoMa: Detecting and Purifying Code Dataset Watermarks through Dual Channel Code Abstraction
- Title(参考訳): DeCoMa: デュアルチャネルコード抽象化によるコードデータセットの透かしの検出と浄化
- Authors: Yuan Xiao, Yuchen Chen, Shiqing Ma, Haocheng Huang, Chunrong Fang, Yanwei Chen, Weisong Sun, Yunfeng Zhu, Xiaofang Zhang, Zhenyu Chen,
- Abstract要約: コード透かしの既存のメソッドは、ステルスなトリガーを透かしとして埋め込む。
DeCoMaは、コードデータセットのWaterMarkを検出し、浄化するためのデュアルチャネルアプローチである。
我々はDeCoMaの有効性と効率を評価するために広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 23.348665370081214
- License:
- Abstract: Watermarking is a technique to help identify the source of data points, which can be used to help prevent the misuse of protected datasets. Existing methods on code watermarking, leveraging the idea from the backdoor research, embed stealthy triggers as watermarks.Despite their high resilience against dilution attacks and backdoor detections, the robustness has not been fully evaluated. To fill this gap, we propose DeCoMa, a dual-channel approach to Detect and purify Code dataset waterMarks.To overcome the high barrier created by the stealthy and hidden nature of code watermarks, DeCoMa leverages dual-channel constraints on code to generalize and map code samples into standardized templates. Subsequently, DeCoMa extracts hidden watermarks by identifying outlier associations between paired elements within the standardized templates. Finally, DeCoMa purifies the watermarked dataset by removing all samples containing the detected watermark, enabling the silent appropriation of protected code. We conduct extensive experiments to evaluate the effectiveness and efficiency of DeCoMa, covering 14 types of code watermarks and 3 representative intelligent code tasks (a total of 14 scenarios). Experimental results demonstrate that DeCoMa achieves a stable recall of 100% in 14 code watermark detection scenarios, significantly outperforming the baselines. Additionally, DeCoMa effectively attacks code watermarks with embedding rates as low as 0.1%, while maintaining comparable model performance after training on the purified dataset. Furthermore, as DeCoMa requires no model training for detection, it achieves substantially higher efficiency than all baselines, with a speedup ranging from 31.5 to 130.9X. The results call for more advanced watermarking techniques for code models, while DeCoMa can serve as a baseline for future evaluation.
- Abstract(参考訳): ウォーターマーキング(Watermarking)は、保護されたデータセットの誤用を防ぐために使用できる、データポイントのソースを特定するテクニックである。
既存のコード透かしの手法は、バックドア研究のアイデアを活用し、ステルストリガーを透かしとして埋め込み、希釈攻撃やバックドア検出に対する高い抵抗性にもかかわらず、ロバスト性は十分に評価されていない。
このギャップを埋めるために、コードデータセットのWaterMarkを検出および浄化するためのデュアルチャネルアプローチであるDeCoMaを提案する。コード透かしのステルス性と隠れた性質によって生じる高い障壁を克服するために、DeCoMaはコードのデュアルチャネル制約を活用して、コードサンプルを一般化し、標準化されたテンプレートにマッピングする。
その後、DeCoMaは、標準化されたテンプレート内のペア要素間の外部結合を識別することで、隠れた透かしを抽出する。
最後に、検出された透かしを含むすべてのサンプルを削除することで、透かし付きデータセットを浄化し、保護されたコードのサイレントな評価を可能にする。
14種類のコード透かしと3つの代表的インテリジェントコードタスク(合計14つのシナリオ)をカバーし,DeCoMaの有効性と効率を評価するための広範な実験を行った。
実験の結果、DeCoMaは14のコード透かし検出シナリオで100%のリコールを実現し、ベースラインを大幅に上回った。
さらに、DeCoMaは、純データセットのトレーニング後に同等のモデルパフォーマンスを維持しながら、埋め込みレートが0.1%以下のコード透かしを効果的に攻撃する。
さらに、DeCoMaは検出のためのモデルトレーニングを必要としないため、すべてのベースラインよりも大幅に効率が高く、スピードアップは31.5から130.9Xである。
結果として、コードモデルのより高度な透かし技術が求められ、DeCoMaは将来の評価のベースラインとして機能する。
関連論文リスト
- Robust and Secure Code Watermarking for Large Language Models via ML/Crypto Codesign [15.153228808457628]
RoSeMaryは、LLM生成コードを規制し、知的財産権侵害やソフトウェア開発における不適切な誤用を避ける。
検出性-忠実性-ロマンス性三目的物に付着する高品質な透かしは、符号の低エントロピーの性質のために制限される。
RoSeMaryは、コード機能を保持しながら高い検出精度を達成する。
論文 参考訳(メタデータ) (2025-02-04T07:35:28Z) - Finding needles in a haystack: A Black-Box Approach to Invisible Watermark Detection [68.90458499700038]
WaterMark Detection (WMD) は、ブラックボックスとアノテーションなしの設定下で最初に目に見えない透かし検出法である。
我々はオフセット学習の基礎を用いてWMDを開発し、クリーンな非透かしデータセットにより、透かしサンプルのみの影響を分離することができる。
論文 参考訳(メタデータ) (2024-03-23T23:22:54Z) - WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models [48.19623266082828]
WaterBenchは、大規模言語モデル(LLM)における透かしの最初の包括的なベンチマークである。
LLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介し、3つの重要な要素を設計する。
オープンソースの透かしを2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-11-13T08:09:01Z) - CodeMark: Imperceptible Watermarking for Code Datasets against Neural
Code Completion Models [12.15157050363382]
我々は,ユーザ定義の知覚不能な透かしをコードデータセットに埋め込んで,ニューラルネットワーク補完モデルのトレーニングに使用する手法であるCodeMarkを提案する。
CodeMarkはアダプティブなセマンティック保存変換に基づいており、コードデータの正確な機能を保持し、変更をルールブレーカから隠蔽する。
論文 参考訳(メタデータ) (2023-08-28T08:36:53Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。