論文の概要: DuCodeMark: Dual-Purpose Code Dataset Watermarking via Style-Aware Watermark-Poison Design
- arxiv url: http://arxiv.org/abs/2604.10611v2
- Date: Mon, 20 Apr 2026 06:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 19:27:32.378345
- Title: DuCodeMark: Dual-Purpose Code Dataset Watermarking via Style-Aware Watermark-Poison Design
- Title(参考訳): DuCodeMark:Dual-Purpose Code Dataset Watermarking by Style-Aware Watermark-Poison Design
- Authors: Yuchen Chen, Yuan Xiao, Chunrong Fang, Zhenyu Chen, Baowen Xu,
- Abstract要約: 我々は、コードデータセットのステルスで堅牢な二重目的透かし手法であるDuCodeMarkを提案する。
DuCodeMarkは各コードサンプルを抽象構文木(AST)に解析し、ステルスなトリガーとターゲットのペアを構築するために言語固有のスタイル変換を適用する。
2つのコードタスク、2つのプログラミング言語、3つのコードLM、6つのデコード温度にまたがる72設定のDuCodeMarkを包括的に評価する。
- 参考スコア(独自算出の注目度): 18.636650706356008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of large language models for code (CodeLMs) and open-source contributions has heightened concerns over unauthorized use of source code datasets. While watermarking provides a viable protection mechanism by embedding ownership signals, existing methods rely on detectable trigger-target patterns and are limited to source-code tasks, overlooking other scenarios such as decompilation tasks. In this paper, we propose DuCodeMark, a stealthy and robust dual-purpose watermarking method for code datasets that generalizes across both source-code tasks and decompilation tasks. DuCodeMark parses each code sample into an abstract syntax tree (AST), applies language-specific style transformations to construct stealthy trigger-target pairs, and injects repressible poisoned features into a subset of return-typed samples to enhance robustness against watermark removal or evasion. These features remain inactive during normal training but are activated upon watermark removal, degrading model performance. For verification, DuCodeMark employs a black-box method based on the independent-samples $t$-test. We conduct a comprehensive evaluation of DuCodeMark across 72 settings spanning two code tasks, two programming languages, three CodeLMs, and six decoding temperatures. The results demonstrate that it consistently achieves strong verifiability ($p < 0.05$), high stealthiness (suspicion rate $\leq$ 0.36), robustness against both watermark and poisoning attacks (recall $\leq$ 0.57), and a substantial drop in model performance upon watermark removal (Pass@1 drops by 28.6%), underscoring its practicality and resilience.
- Abstract(参考訳): コードのための大規模言語モデル(CodeLM)やオープンソースコントリビューションの普及により、ソースコードデータセットの不正使用に対する懸念が高まっている。
ウォーターマーキングはオーナシップシグナルを埋め込むことによって、実行可能な保護メカニズムを提供するが、既存のメソッドは検出可能なトリガーターゲットパターンに依存し、ソースコードタスクに制限され、逆コンパイルタスクのような他のシナリオを見渡すことができる。
本稿では,ソースコードタスクと逆コンパイルタスクの両方にまたがって一般化するコードデータセットのための,ステルスで堅牢な二重目的透かし手法であるDuCodeMarkを提案する。
DuCodeMarkは、各コードサンプルを抽象構文木(AST)に解析し、ステルスなトリガーターゲットペアを構築するために言語固有のスタイル変換を適用し、リターン型サンプルのサブセットに圧縮性の有毒な機能を注入することで、透かし除去や回避に対する堅牢性を高める。
これらの機能は、通常の訓練中も動作しないが、ウォーターマークの除去、モデル性能の劣化によって起動される。
検証には、DuCodeMarkは独立サンプル$t$-testに基づいたブラックボックスメソッドを使用する。
2つのコードタスク、2つのプログラミング言語、3つのコードLM、6つのデコード温度にまたがる72設定のDuCodeMarkを包括的に評価する。
その結果、強い検証可能性(p < 0.05$)、高い盗聴性(suspicion rate $\leq$ 0.36)、透かしと毒殺攻撃に対する堅牢性(recall $\leq$ 0.57)、透かし除去時のモデル性能の大幅な低下(Pass@1の減少率28.6%)が証明された。
関連論文リスト
- CODE ACROSTIC: Robust Watermarking for Code Generation [49.125981508877565]
既存の言語モデル(LLM)の透かし方法では、コメント削除攻撃に対処できない。
我々のアプローチは、コードの低エントロピーと高エントロピーを区別するために、事前の知識を活用することである。
次に、このキューリストで導かれた透かしを注入し、既存の方法よりも高い検出性とユーザビリティを実現する。
論文 参考訳(メタデータ) (2025-12-14T19:14:54Z) - Large Language Models Are Effective Code Watermarkers [23.085224961348015]
ウォーターマーキングは、ソース属性に対する有望なソリューションとして登場した。
CodeMark-LLMはそのセマンティクスや可読性を損なうことなく、ソースコードに透かしを埋め込む。
論文 参考訳(メタデータ) (2025-10-13T10:40:24Z) - DMark: Order-Agnostic Watermarking for Diffusion Large Language Models [46.07844536066178]
拡散大言語モデル(dLLM)は、同等の品質を維持しながら、自己回帰モデルよりも高速な生成を提供する。
DMarkは、dLLM用に特別に設計された最初の透かしフレームワークである。
論文 参考訳(メタデータ) (2025-10-03T11:14:16Z) - TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity [76.98973481600002]
本稿では,TAG-WMと命名されたタンパ認識画像ウォーターマーキング手法を提案する。
提案手法は、4つのキーモジュールからなる: 生成品質を保ちつつ、著作権と局所化の透かしを潜伏空間に埋め込むためのデュアルマークジョイントサンプリング (DMJS) アルゴリズム。
実験結果から,TAG-WMは歪み下においても,改質性および局所化能力の両面において最先端性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-30T03:14:07Z) - Towards Generalized and Stealthy Watermarking for Generative Code Models [35.78974773421725]
実験の結果,コード要約タスクとコード生成タスクの両方において,CodeGuardが最大100%の透かし検証率を達成することがわかった。
ステルス性に関しては、CodeGuard は OnION 検出方法に対して最大 0.078 の検出率で例外的に実行している。
論文 参考訳(メタデータ) (2025-06-26T01:14:35Z) - Beyond Dataset Watermarking: Model-Level Copyright Protection for Code Summarization Models [37.817691840557984]
CSMは、許可されていないユーザによる搾取のリスクに直面します。
伝統的な透かし法はトリガーと透かしの特徴を別々に設計する必要がある。
モデルレベルの新しい電子透かし埋め込み方式であるModMarkを提案する。
論文 参考訳(メタデータ) (2024-10-18T00:48:00Z) - WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models [48.19623266082828]
WaterBenchは、大規模言語モデル(LLM)における透かしの最初の包括的なベンチマークである。
LLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介し、3つの重要な要素を設計する。
オープンソースの透かしを2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-11-13T08:09:01Z) - ClearMark: Intuitive and Robust Model Watermarking via Transposed Model
Training [50.77001916246691]
本稿では,人間の直感的な評価を目的とした最初のDNN透かし手法であるClearMarkを紹介する。
ClearMarkは目に見える透かしを埋め込んで、厳格な値閾値なしで人間の意思決定を可能にする。
8,544ビットの透かし容量は、現存する最強の作品に匹敵する。
論文 参考訳(メタデータ) (2023-10-25T08:16:55Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。