論文の概要: Large Language Models Are Effective Code Watermarkers
- arxiv url: http://arxiv.org/abs/2510.11251v1
- Date: Mon, 13 Oct 2025 10:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.323652
- Title: Large Language Models Are Effective Code Watermarkers
- Title(参考訳): 大規模な言語モデルは効果的なコード透かしである
- Authors: Rui Xu, Jiawei Chen, Zhaoxia Yin, Cong Kong, Xinpeng Zhang,
- Abstract要約: ウォーターマーキングは、ソース属性に対する有望なソリューションとして登場した。
CodeMark-LLMはそのセマンティクスや可読性を損なうことなく、ソースコードに透かしを埋め込む。
- 参考スコア(独自算出の注目度): 23.085224961348015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of large language models (LLMs) and open-source code has raised ethical and security concerns regarding the distribution and attribution of source code, including unauthorized redistribution, license violations, and misuse of code for malicious purposes. Watermarking has emerged as a promising solution for source attribution, but existing techniques rely heavily on hand-crafted transformation rules, abstract syntax tree (AST) manipulation, or task-specific training, limiting their scalability and generality across languages. Moreover, their robustness against attacks remains limited. To address these limitations, we propose CodeMark-LLM, an LLM-driven watermarking framework that embeds watermark into source code without compromising its semantics or readability. CodeMark-LLM consists of two core components: (i) Semantically Consistent Embedding module that applies functionality-preserving transformations to encode watermark bits, and (ii) Differential Comparison Extraction module that identifies the applied transformations by comparing the original and watermarked code. Leveraging the cross-lingual generalization ability of LLM, CodeMark-LLM avoids language-specific engineering and training pipelines. Extensive experiments across diverse programming languages and attack scenarios demonstrate its robustness, effectiveness, and scalability.
- Abstract(参考訳): 大規模言語モデル(LLM)とオープンソースコードの普及は、不正な再配布、ライセンス違反、悪意ある目的のためのコードの誤使用など、ソースコードの配布と帰属に関する倫理的およびセキュリティ上の懸念を提起している。
ウォーターマーキングは、ソース属性のための有望なソリューションとして登場したが、既存のテクニックは手作りの変換ルール、抽象構文木(AST)操作、タスク固有のトレーニングに大きく依存しており、言語間のスケーラビリティと汎用性を制限する。
また、攻撃に対する頑丈さは依然として限られている。
これらの制限に対処するために,ソースコードに透かしを埋め込むLLM駆動の透かしフレームワークであるCodeMark-LLMを提案する。
CodeMark-LLMは2つのコアコンポーネントから構成される。
一 透かしビットを符号化する機能保存変換を施した意味的に一貫性のある埋め込みモジュール
(ii) 元のコードと透かしコードを比較して適用された変換を識別する差分比較抽出モジュール。
LLMの言語間一般化機能を活用して、CodeMark-LLMは言語固有のエンジニアリングとトレーニングパイプラインを避ける。
多様なプログラミング言語やアタックシナリオにわたる大規模な実験は、その堅牢性、有効性、スケーラビリティを示している。
関連論文リスト
- Beyond Dataset Watermarking: Model-Level Copyright Protection for Code Summarization Models [37.817691840557984]
CSMは、許可されていないユーザによる搾取のリスクに直面します。
伝統的な透かし法はトリガーと透かしの特徴を別々に設計する必要がある。
モデルレベルの新しい電子透かし埋め込み方式であるModMarkを提案する。
論文 参考訳(メタデータ) (2024-10-18T00:48:00Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative Large Language Models [16.243415709584077]
大規模言語モデル(LLM)のための新しい効率的で堅牢な透かしフレームワークREMARK-LLMを提案する。
ReMARK-LLMは、透かしのある内容における意味的整合性の保存を促進するために厳格に訓練されている。
透かしの検出と除去攻撃に対してより優れたレジリエンスを示す。
論文 参考訳(メタデータ) (2023-10-18T22:14:37Z) - Towards Tracing Code Provenance with Code Watermarking [37.41260851333952]
我々は、ビット文字列を変数に隠蔽し、コードの自然的および操作的意味論を尊重する電子透かしシステムであるCodeMarkを提案する。
自然性のために、我々は、グラフニューラルネットワーク上のコンテキストにおいてよりコヒーレントな透かし変数を生成するためのコンテキスト透かし方式を導入する。
CodeMarkは、透かし要求のバランスが良く、SOTA透かしシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-21T13:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。