論文の概要: Disappearing Ink: Obfuscation Breaks N-gram Code Watermarks in Theory and Practice
- arxiv url: http://arxiv.org/abs/2507.05512v1
- Date: Mon, 07 Jul 2025 22:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.368335
- Title: Disappearing Ink: Obfuscation Breaks N-gram Code Watermarks in Theory and Practice
- Title(参考訳): インクが消える: 難読化は理論と実践におけるN-gramコード透かしを破る
- Authors: Gehao Zhang, Eugene Bagdasarian, Juan Zhai, Shiqing Ma,
- Abstract要約: 人間が書いたコードからAI生成コードを識別することは、著者の帰属、コンテンツ追跡、誤用検出に不可欠である。
N-gramベースの透かしは、世代中に検出される秘密の透かしを注入する顕著な方法として出現している。
ほとんどのクレームは、攻撃のシミュレーションとして単純なコード変換やコードの最適化に対する防御にのみ依存しています。
- 参考スコア(独自算出の注目度): 23.788321123219244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distinguishing AI-generated code from human-written code is becoming crucial for tasks such as authorship attribution, content tracking, and misuse detection. Based on this, N-gram-based watermarking schemes have emerged as prominent, which inject secret watermarks to be detected during the generation. However, their robustness in code content remains insufficiently evaluated. Most claims rely solely on defenses against simple code transformations or code optimizations as a simulation of attack, creating a questionable sense of robustness. In contrast, more sophisticated schemes already exist in the software engineering world, e.g., code obfuscation, which significantly alters code while preserving functionality. Although obfuscation is commonly used to protect intellectual property or evade software scanners, the robustness of code watermarking techniques against such transformations remains largely unexplored. In this work, we formally model the code obfuscation and prove the impossibility of N-gram-based watermarking's robustness with only one intuitive and experimentally verified assumption, distribution consistency, satisfied. Given the original false positive rate of the watermarking detection, the ratio that the detector failed on the watermarked code after obfuscation will increase to 1 - fpr. The experiments have been performed on three SOTA watermarking schemes, two LLMs, two programming languages, four code benchmarks, and four obfuscators. Among them, all watermarking detectors show coin-flipping detection abilities on obfuscated codes (AUROC tightly surrounds 0.5). Among all models, watermarking schemes, and datasets, both programming languages own obfuscators that can achieve attack effects with no detection AUROC higher than 0.6 after the attack. Based on the theoretical and practical observations, we also proposed a potential path of robust code watermarking.
- Abstract(参考訳): 著者の帰属、コンテンツ追跡、誤用検出といったタスクには、人書きコードからAI生成コードを識別することが不可欠になっている。
これに基づいて、N-gramベースの透かしスキームが顕著に現れ、世代中に検出される秘密の透かしを注入している。
しかし、コード内容の堅牢性はまだ十分に評価されていない。
ほとんどのクレームは、攻撃のシミュレーションとして単純なコード変換やコードの最適化に対する防御にのみ依存しています。
対照的に、より洗練されたスキームは、例えば、コード難読化(code obfuscation)など、ソフトウェアエンジニアリングの世界にすでに存在し、機能を維持しながらコードを大きく変更します。
難読化は知的財産権の保護やソフトウェアスキャナの回避に一般的に用いられているが、このような変換に対するコード透かし技術の堅牢性はいまだ明らかにされていない。
本研究では, コード難読化を形式的にモデル化し, 直観的かつ実験的に検証された仮定, 分布整合性, 満足度のみを用いて, N-gram-based watermarkingの堅牢性を証明した。
透かし検出の元々の偽陽性率を考えると、難読化後の透かし符号で検出が失敗した割合は1 - fprに増加する。
実験は3つのSOTAウォーターマーキングスキーム、2つのLLM、2つのプログラミング言語、4つのコードベンチマーク、4つの難読化器で実施された。
これらのうち、全ての透かし検出器は、難読コード(AUROCは0.5をきつく囲んでいる)にコインフライング検出能力を示す。
すべてのモデル、ウォーターマーキングスキーム、データセットの中で、どちらのプログラミング言語も攻撃後のAUROCを0.6以上検出することなく攻撃効果を達成できる難読化器を所有している。
理論的および実践的な観察に基づいて,ロバストなコード透かしの潜在的経路も提案した。
関連論文リスト
- Towards Generalized and Stealthy Watermarking for Generative Code Models [35.78974773421725]
実験の結果,コード要約タスクとコード生成タスクの両方において,CodeGuardが最大100%の透かし検証率を達成することがわかった。
ステルス性に関しては、CodeGuard は OnION 検出方法に対して最大 0.078 の検出率で例外的に実行している。
論文 参考訳(メタデータ) (2025-06-26T01:14:35Z) - Robust and Secure Code Watermarking for Large Language Models via ML/Crypto Codesign [15.153228808457628]
RoSeMaryは、LLM生成コードを規制し、知的財産権侵害やソフトウェア開発における不適切な誤用を避ける。
検出性-忠実性-ロマンス性三目的物に付着する高品質な透かしは、符号の低エントロピーの性質のために制限される。
RoSeMaryは、コード機能を保持しながら高い検出精度を達成する。
論文 参考訳(メタデータ) (2025-02-04T07:35:28Z) - Is The Watermarking Of LLM-Generated Code Robust? [5.48277165801539]
コードベースのコンテキストでは、ウォーターマーキングのテクニックがはるかに脆弱であることを示します。
具体的には、変数リネームやデッドコード挿入といった単純なセマンティック保存変換が、ウォーターマークを効果的に消去できることを示す。
論文 参考訳(メタデータ) (2024-03-24T21:41:29Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。