Fugu-MT 論文翻訳(概要): Optimizing Token Choice for Code Watermarking: A RL Approach

論文の概要: Optimizing Token Choice for Code Watermarking: A RL Approach

arxiv url: http://arxiv.org/abs/2508.11925v1
Date: Sat, 16 Aug 2025 06:11:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:10.45631
Title: Optimizing Token Choice for Code Watermarking: A RL Approach
Title（参考訳）: コードウォーターマーキングのためのトークン選択の最適化 - RLアプローチ
Authors: Zhimeng Guo, Huaisheng Zhu, Siyuan Xu, Hangfan Zhang, Teng Xiao, Minhao Cheng,
Abstract要約: 我々は,新しい強化学習訓練パラダイムを基盤とした適応型コード透かしフレームワークであるCodeTracerを紹介する。 CodeTracerの中核となるのは、パラメータ化モデルを使用してトークン選択をインテリジェントにバイアスするポリシ駆動のアプローチだ。政策学習を容易にするために,実行フィードバックを透かし埋め込み信号とシームレスに統合する包括的報酬システムを開発した。
参考スコア（独自算出の注目度）: 24.252077432208225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The need for detecting LLM-generated code necessitates watermarking systems capable of operating within its highly structured and syntactically constrained environment. To address this, we introduce CodeTracer, an innovative adaptive code watermarking framework underpinned by a novel reinforcement learning training paradigm. At its core, CodeTracer features a policy-driven approach that utilizes a parameterized model to intelligently bias token choices during next-token prediction. This strategy ensures that embedded watermarks maintain code functionality while exhibiting subtle yet statistically detectable deviations from typical token distributions. To facilitate policy learning, we devise a comprehensive reward system that seamlessly integrates execution feedback with watermark embedding signals, balancing process-level and outcome-level rewards. Additionally, we employ Gumbel Top-k reparameterization to enable gradient-based optimization of discrete watermarking decisions. Extensive comparative evaluations demonstrate CodeTracer's significant superiority over state-of-the-art baselines in both watermark detectability and the preservation of generated code's functionality.
Abstract（参考訳）: LLM生成コードを検出する必要性は、高度に構造化され、構文的に制約された環境で動作可能な透かしシステムを必要とする。これを解決するために,新しい強化学習訓練パラダイムを基盤とした,革新的な適応型コード透かしフレームワークであるCodeTracerを紹介した。 CodeTracerの中核となるのは、パラメータ化モデルを使用して、次のトークン予測中にトークンの選択をインテリジェントにバイアスするポリシ駆動のアプローチだ。この戦略は、埋め込み透かしがコード機能を維持しつつ、典型的なトークン分布から微妙に統計的に検出可能な偏差を示すことを保証します。政策学習を容易にするため,我々は,実行フィードバックを透かし埋め込み信号とシームレスに統合し,プロセスレベルと結果レベルの報酬のバランスをとる総合的な報酬システムを開発した。さらに、Gumbel Top-k再パラメータ化を用いて、離散的な透かし決定の勾配に基づく最適化を可能にする。大規模な比較評価は、ウォーターマーク検出性と生成されたコード機能の保存の両方において、CodeTracerが最先端のベースラインよりも大幅に優れていることを示している。

論文の概要: Optimizing Token Choice for Code Watermarking: A RL Approach

関連論文リスト