論文の概要: CodeMark: Imperceptible Watermarking for Code Datasets against Neural
Code Completion Models
- arxiv url: http://arxiv.org/abs/2308.14401v1
- Date: Mon, 28 Aug 2023 08:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:52:29.314491
- Title: CodeMark: Imperceptible Watermarking for Code Datasets against Neural
Code Completion Models
- Title(参考訳): CodeMark: ニューラルコード補完モデルに対するコードデータセットに対する許容できない透かし
- Authors: Zhensu Sun, Xiaoning Du, Fu Song, Li Li
- Abstract要約: 我々は,ユーザ定義の知覚不能な透かしをコードデータセットに埋め込んで,ニューラルネットワーク補完モデルのトレーニングに使用する手法であるCodeMarkを提案する。
CodeMarkはアダプティブなセマンティック保存変換に基づいており、コードデータの正確な機能を保持し、変更をルールブレーカから隠蔽する。
- 参考スコア(独自算出の注目度): 12.15157050363382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code datasets are of immense value for training neural-network-based code
completion models, where companies or organizations have made substantial
investments to establish and process these datasets. Unluckily, these datasets,
either built for proprietary or public usage, face the high risk of
unauthorized exploits, resulting from data leakages, license violations, etc.
Even worse, the ``black-box'' nature of neural models sets a high barrier for
externals to audit their training datasets, which further connives these
unauthorized usages. Currently, watermarking methods have been proposed to
prohibit inappropriate usage of image and natural language datasets. However,
due to domain specificity, they are not directly applicable to code datasets,
leaving the copyright protection of this emerging and important field of code
data still exposed to threats. To fill this gap, we propose a method, named
CodeMark, to embed user-defined imperceptible watermarks into code datasets to
trace their usage in training neural code completion models. CodeMark is based
on adaptive semantic-preserving transformations, which preserve the exact
functionality of the code data and keep the changes covert against
rule-breakers. We implement CodeMark in a toolkit and conduct an extensive
evaluation of code completion models. CodeMark is validated to fulfill all
desired properties of practical watermarks, including harmlessness to model
accuracy, verifiability, robustness, and imperceptibility.
- Abstract(参考訳): コードデータセットは、ニューラルネットワークベースのコード補完モデルのトレーニングに非常に価値があり、企業や組織がこれらのデータセットの確立と処理に多大な投資をしている。
幸いなことに、これらのデータセットはプロプライエタリあるいはパブリックな使用のために構築され、データ漏洩やライセンス違反などによる不正なエクスプロイトのリスクが高い。
さらに悪いことに、'black-box'というニューラルモデルの性質は、外部者がトレーニングデータセットを監査する際の障壁を高く設定する。
現在、画像および自然言語データセットの不適切な使用を禁止するための透かし手法が提案されている。
しかし、ドメイン固有のため、これらはコードデータセットに直接適用できないため、この新しく重要なコードデータの著作権保護が脅威にさらされているままである。
このギャップを埋めるために,ユーザ定義の知覚不能な透かしをコードデータセットに埋め込んで,ニューラルネットワーク補完モデルのトレーニングに使用する手法であるCodeMarkを提案する。
CodeMarkはアダプティブなセマンティック保存変換に基づいており、コードデータの正確な機能を保持し、変更をルールブレーカから隠蔽する。
ツールキットにCodeMarkを実装し、コード補完モデルの広範な評価を行う。
CodeMarkは、モデル精度、検証可能性、堅牢性、非受容性など、実用的な透かしのすべての望ましい特性を満たすために検証されている。
関連論文リスト
- Beyond Dataset Watermarking: Model-Level Copyright Protection for Code Summarization Models [37.817691840557984]
CSMは、許可されていないユーザによる搾取のリスクに直面します。
伝統的な透かし法はトリガーと透かしの特徴を別々に設計する必要がある。
モデルレベルの新しい電子透かし埋め込み方式であるModMarkを提案する。
論文 参考訳(メタデータ) (2024-10-18T00:48:00Z) - Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文 参考訳(メタデータ) (2024-06-20T02:02:44Z) - Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code [13.135962181354465]
コード監査は、開発済みのコードが標準、規制、著作権保護に準拠していることを保証する。
ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらしている。
LLMのトレーニングデータセットにコードを含むことを検出するモデルに依存しない、解釈可能な方法であるTraWiCを提案する。
論文 参考訳(メタデータ) (2024-02-14T16:41:35Z) - ClearMark: Intuitive and Robust Model Watermarking via Transposed Model
Training [50.77001916246691]
本稿では,人間の直感的な評価を目的とした最初のDNN透かし手法であるClearMarkを紹介する。
ClearMarkは目に見える透かしを埋め込んで、厳格な値閾値なしで人間の意思決定を可能にする。
8,544ビットの透かし容量は、現存する最強の作品に匹敵する。
論文 参考訳(メタデータ) (2023-10-25T08:16:55Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Towards Tracing Code Provenance with Code Watermarking [37.41260851333952]
我々は、ビット文字列を変数に隠蔽し、コードの自然的および操作的意味論を尊重する電子透かしシステムであるCodeMarkを提案する。
自然性のために、我々は、グラフニューラルネットワーク上のコンテキストにおいてよりコヒーレントな透かし変数を生成するためのコンテキスト透かし方式を導入する。
CodeMarkは、透かし要求のバランスが良く、SOTA透かしシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-21T13:53:12Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。