論文の概要: CODE ACROSTIC: Robust Watermarking for Code Generation
- arxiv url: http://arxiv.org/abs/2512.14753v1
- Date: Sun, 14 Dec 2025 19:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.720066
- Title: CODE ACROSTIC: Robust Watermarking for Code Generation
- Title(参考訳): CODE ACROSTIC: コード生成のためのロバストなウォーターマーキング
- Authors: Li Lin, Siyuan Xin, Yang Cao, Xiaochun Cao,
- Abstract要約: 既存の言語モデル(LLM)の透かし方法では、コメント削除攻撃に対処できない。
我々のアプローチは、コードの低エントロピーと高エントロピーを区別するために、事前の知識を活用することである。
次に、このキューリストで導かれた透かしを注入し、既存の方法よりも高い検出性とユーザビリティを実現する。
- 参考スコア(独自算出の注目度): 49.125981508877565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking large language models (LLMs) is vital for preventing their misuse, including the fabrication of fake news, plagiarism, and spam. It is especially important to watermark LLM-generated code, as it often contains intellectual property.However, we found that existing methods for watermarking LLM-generated code fail to address comment removal attack.In such cases, an attacker can simply remove the comments from the generated code without affecting its functionality, significantly reducing the effectiveness of current code-watermarking techniques.On the other hand, injecting a watermark into code is challenging because, as previous works have noted, most code represents a low-entropy scenario compared to natural language. Our approach to addressing this issue involves leveraging prior knowledge to distinguish between low-entropy and high-entropy parts of the code, as indicated by a Cue List of words.We then inject the watermark guided by this Cue List, achieving higher detectability and usability than existing methods.We evaluated our proposed method on HumanEvaland compared our method with three state-of-the-art code watermarking techniques. The results demonstrate the effectiveness of our approach.
- Abstract(参考訳): 大規模な言語モデル(LLM)の透かしは、偽ニュース、盗作、スパムなどの誤用を防ぐために不可欠である。
知的財産を多く含むため, LLM生成コードの透かしは特に重要であるが, LLM生成コードの透かしはコメント削除攻撃に対処できない。そのような場合, 攻撃者は, 既存のコード透かし技術の有効性を著しく低下させることなく, 生成したコードからコメントを取り出すことができる。一方, コードに透かしを注入することは, 以前の研究で指摘されているように, ほとんどのコードは自然言語と比較して低エントロピーのシナリオを示すため, 困難である。
この問題に対する我々のアプローチは、コード内の低エントロピーと高エントロピーを区別するために事前の知識を活用することであり、このキューリストでガイドされた透かしを注入し、既存の方法よりも高い検出性とユーザビリティを実現し、提案手法をHumanEvalandで評価し、3つの最先端コード透かし技術と比較した。
その結果,本手法の有効性が示された。
関連論文リスト
- Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Is The Watermarking Of LLM-Generated Code Robust? [5.48277165801539]
コードベースのコンテキストでは、ウォーターマーキングのテクニックがはるかに脆弱であることを示します。
具体的には、変数リネームやデッドコード挿入といった単純なセマンティック保存変換が、ウォーターマークを効果的に消去できることを示す。
論文 参考訳(メタデータ) (2024-03-24T21:41:29Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。