論文の概要: MATRIX: Multi-Layer Code Watermarking via Dual-Channel Constrained Parity-Check Encoding
- arxiv url: http://arxiv.org/abs/2604.16001v1
- Date: Fri, 17 Apr 2026 12:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.908906
- Title: MATRIX: Multi-Layer Code Watermarking via Dual-Channel Constrained Parity-Check Encoding
- Title(参考訳): MATRIX:デュアルチャネル制約による複数層コード透かし
- Authors: Yuqing Nie, Chong Wang, Guosheng Xu, Guoai Xu, Chenyu Wang, Haoyu Wang, Kailong Wang,
- Abstract要約: 既存のコード透かしアプローチには2つの基本的な制限がある。
制約付きパリティチェック行列方程式の解法として透かしエンコーディングを定式化する新しいコード透かしフレームワークであるMATRIXを提案する。
- 参考スコア(独自算出の注目度): 11.231440860032388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code Large Language Models (Code LLMs) have revolutionized software development but raised critical concerns regarding code provenance, copyright protection, and security. Existing code watermarking approaches suffer from two fundamental limitations: black-box methods either exhibit detectable syntactic patterns vulnerable to statistical analysis or rely on implicit neural embedding behaviors that weaken interpretability, auditability, and precise control, while white-box methods lack code-aware capabilities that may compromise functionality. Moreover, current single-layer watermarking schemes fail to address increasingly complex provenance requirements such as multi-level attribution and version tracking. We present MATRIX, a novel code watermarking framework that formulates watermark encoding as solving constrained parity-check matrix equations. MATRIX employs dual-channel watermarking through variable naming and semantic-preserving transformations, enhancing watermark coverage across a wider range of code while ensuring mutual backup for robustness. By integrating BCH error-correction codes with solution space diversity, our approach achieves robustness against statistical analysis. Extensive evaluation on Python code generated by multiple Code LLMs demonstrates that MATRIX achieves an average watermark detection accuracy of 99.20% with minimal functionality loss (0-0.14%), improves robustness by 7.70-26.67% against various attacks, and increases watermarking applicability by 2-6x compared with existing methods. These results establish MATRIX as an effective solution for complex code provenance scenarios while balancing among detectability, fidelity, and robustness.
- Abstract(参考訳): Code Large Language Models (Code LLMs)はソフトウェア開発に革命をもたらしたが、コード証明、著作権保護、セキュリティに関する重要な懸念を提起した。
既存のコード透かしアプローチには2つの基本的な制限がある: ブラックボックスメソッドは統計的分析に弱い検出可能な構文パターンを示すか、解釈可能性、監査可能性、正確な制御を弱める暗黙の神経埋め込み動作に依存する。
さらに、現在のシングルレイヤの透かし方式は、マルチレベル属性やバージョントラッキングといった、ますます複雑な証明要件に対処できない。
制約付きパリティチェック行列方程式の解法として透かしエンコーディングを定式化する新しいコード透かしフレームワークであるMATRIXを提案する。
MATRIXは、変数の命名とセマンティック保存変換を通じてデュアルチャネルの透かしを採用し、より広い範囲のコードにわたって透かしのカバレッジを高め、堅牢性の相互バックアップを確保している。
BCH誤り訂正符号と解空間の多様性を統合することにより,統計的解析に対する頑健性を実現する。
複数のコードLLMによって生成されたPythonコードに対する大規模な評価は、MATRIXが最小機能損失(0-0.14%)で99.20%の平均的な透かし検出精度を達成し、様々な攻撃に対して7.70-26.67%の堅牢性を向上し、既存の方法と比較して透かしの適用性を2-6倍向上することを示した。
これらの結果は、検出可能性、忠実性、堅牢性のバランスを保ちながら、複雑なコード証明シナリオの効果的なソリューションとしてMATRIXを確立している。
関連論文リスト
- DuCodeMark: Dual-Purpose Code Dataset Watermarking via Style-Aware Watermark-Poison Design [18.636650706356008]
我々は、コードデータセットのステルスで堅牢な二重目的透かし手法であるDuCodeMarkを提案する。
DuCodeMarkは各コードサンプルを抽象構文木(AST)に解析し、ステルスなトリガーとターゲットのペアを構築するために言語固有のスタイル変換を適用する。
2つのコードタスク、2つのプログラミング言語、3つのコードLM、6つのデコード温度にまたがる72設定のDuCodeMarkを包括的に評価する。
論文 参考訳(メタデータ) (2026-04-12T12:32:38Z) - Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。
機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文 参考訳(メタデータ) (2026-02-07T07:42:07Z) - Large Language Models Are Effective Code Watermarkers [23.085224961348015]
ウォーターマーキングは、ソース属性に対する有望なソリューションとして登場した。
CodeMark-LLMはそのセマンティクスや可読性を損なうことなく、ソースコードに透かしを埋め込む。
論文 参考訳(メタデータ) (2025-10-13T10:40:24Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - Disappearing Ink: Obfuscation Breaks N-gram Code Watermarks in Theory and Practice [23.788321123219244]
人間が書いたコードからAI生成コードを識別することは、著者の帰属、コンテンツ追跡、誤用検出に不可欠である。
N-gramベースの透かしは、世代中に検出される秘密の透かしを注入する顕著な方法として出現している。
ほとんどのクレームは、攻撃のシミュレーションとして単純なコード変換やコードの最適化に対する防御にのみ依存しています。
論文 参考訳(メタデータ) (2025-07-07T22:18:19Z) - TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity [76.98973481600002]
本稿では,TAG-WMと命名されたタンパ認識画像ウォーターマーキング手法を提案する。
提案手法は、4つのキーモジュールからなる: 生成品質を保ちつつ、著作権と局所化の透かしを潜伏空間に埋め込むためのデュアルマークジョイントサンプリング (DMJS) アルゴリズム。
実験結果から,TAG-WMは歪み下においても,改質性および局所化能力の両面において最先端性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-30T03:14:07Z) - Towards Generalized and Stealthy Watermarking for Generative Code Models [35.78974773421725]
実験の結果,コード要約タスクとコード生成タスクの両方において,CodeGuardが最大100%の透かし検証率を達成することがわかった。
ステルス性に関しては、CodeGuard は OnION 検出方法に対して最大 0.078 の検出率で例外的に実行している。
論文 参考訳(メタデータ) (2025-06-26T01:14:35Z) - Robust and Secure Code Watermarking for Large Language Models via ML/Crypto Codesign [15.153228808457628]
RoSeMaryは、LLM生成コードを規制し、知的財産権侵害やソフトウェア開発における不適切な誤用を避ける。
検出性-忠実性-ロマンス性三目的物に付着する高品質な透かしは、符号の低エントロピーの性質のために制限される。
RoSeMaryは、コード機能を保持しながら高い検出精度を達成する。
論文 参考訳(メタデータ) (2025-02-04T07:35:28Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。