論文の概要: CODE ACROSTIC: Robust Watermarking for Code Generation
- arxiv url: http://arxiv.org/abs/2512.14753v1
- Date: Sun, 14 Dec 2025 19:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.720066
- Title: CODE ACROSTIC: Robust Watermarking for Code Generation
- Title(参考訳): CODE ACROSTIC: コード生成のためのロバストなウォーターマーキング
- Authors: Li Lin, Siyuan Xin, Yang Cao, Xiaochun Cao,
- Abstract要約: 既存の言語モデル(LLM)の透かし方法では、コメント削除攻撃に対処できない。
我々のアプローチは、コードの低エントロピーと高エントロピーを区別するために、事前の知識を活用することである。
次に、このキューリストで導かれた透かしを注入し、既存の方法よりも高い検出性とユーザビリティを実現する。
- 参考スコア(独自算出の注目度): 49.125981508877565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking large language models (LLMs) is vital for preventing their misuse, including the fabrication of fake news, plagiarism, and spam. It is especially important to watermark LLM-generated code, as it often contains intellectual property.However, we found that existing methods for watermarking LLM-generated code fail to address comment removal attack.In such cases, an attacker can simply remove the comments from the generated code without affecting its functionality, significantly reducing the effectiveness of current code-watermarking techniques.On the other hand, injecting a watermark into code is challenging because, as previous works have noted, most code represents a low-entropy scenario compared to natural language. Our approach to addressing this issue involves leveraging prior knowledge to distinguish between low-entropy and high-entropy parts of the code, as indicated by a Cue List of words.We then inject the watermark guided by this Cue List, achieving higher detectability and usability than existing methods.We evaluated our proposed method on HumanEvaland compared our method with three state-of-the-art code watermarking techniques. The results demonstrate the effectiveness of our approach.
- Abstract(参考訳): 大規模な言語モデル(LLM)の透かしは、偽ニュース、盗作、スパムなどの誤用を防ぐために不可欠である。
知的財産を多く含むため, LLM生成コードの透かしは特に重要であるが, LLM生成コードの透かしはコメント削除攻撃に対処できない。そのような場合, 攻撃者は, 既存のコード透かし技術の有効性を著しく低下させることなく, 生成したコードからコメントを取り出すことができる。一方, コードに透かしを注入することは, 以前の研究で指摘されているように, ほとんどのコードは自然言語と比較して低エントロピーのシナリオを示すため, 困難である。
この問題に対する我々のアプローチは、コード内の低エントロピーと高エントロピーを区別するために事前の知識を活用することであり、このキューリストでガイドされた透かしを注入し、既存の方法よりも高い検出性とユーザビリティを実現し、提案手法をHumanEvalandで評価し、3つの最先端コード透かし技術と比較した。
その結果,本手法の有効性が示された。
関連論文リスト
- Disappearing Ink: Obfuscation Breaks N-gram Code Watermarks in Theory and Practice [23.788321123219244]
人間が書いたコードからAI生成コードを識別することは、著者の帰属、コンテンツ追跡、誤用検出に不可欠である。
N-gramベースの透かしは、世代中に検出される秘密の透かしを注入する顕著な方法として出現している。
ほとんどのクレームは、攻撃のシミュレーションとして単純なコード変換やコードの最適化に対する防御にのみ依存しています。
論文 参考訳(メタデータ) (2025-07-07T22:18:19Z) - Marking Code Without Breaking It: Code Watermarking for Detecting LLM-Generated Code [8.371877324812505]
我々は,非シンタクティックトークンにのみ透かしを埋め込む構文認識型透かし手法STONEを提案する。
Python、C++、Java全体で、STONEは正確性を保持し、強力な検出可能性を保持し、最小限のオーバーヘッドでバランスの取れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-26T05:46:13Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Is The Watermarking Of LLM-Generated Code Robust? [5.48277165801539]
コードベースのコンテキストでは、ウォーターマーキングのテクニックがはるかに脆弱であることを示します。
具体的には、変数リネームやデッドコード挿入といった単純なセマンティック保存変換が、ウォーターマークを効果的に消去できることを示す。
論文 参考訳(メタデータ) (2024-03-24T21:41:29Z) - No Free Lunch in LLM Watermarking: Trade-offs in Watermarking Design Choices [20.20770405297239]
LLM透かし方式における一般的な設計選択は、結果のシステムが驚くほど攻撃を受けやすいことを示す。
本稿では, LLM透かしのガイドラインと防御について述べる。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。