論文の概要: A Certified Robust Watermark For Large Language Models
- arxiv url: http://arxiv.org/abs/2409.19708v1
- Date: Sun, 29 Sep 2024 13:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:57:32.001396
- Title: A Certified Robust Watermark For Large Language Models
- Title(参考訳): 大規模言語モデルのための認証されたロバストな透かし
- Authors: Xianheng Feng, Jian Liu, Kui Ren, Chun Chen,
- Abstract要約: ランダムな平滑化に基づく大規模言語モデルのための,最初の認証済みロバストな透かしアルゴリズムを提案する。
我々のアルゴリズムは、相当な確証のある頑健さを導き出すことができ、つまり、大きな変化があっても、透かしを除去できないことを意味する。
- 参考スコア(独自算出の注目度): 14.944271622556778
- License:
- Abstract: The effectiveness of watermark algorithms in AI-generated text identification has garnered significant attention. Concurrently, an increasing number of watermark algorithms have been proposed to enhance the robustness against various watermark attacks. However, these watermark algorithms remain susceptible to adaptive or unseen attacks. To address this issue, to our best knowledge, we propose the first certified robust watermark algorithm for large language models based on randomized smoothing, which can provide provable guarantees for watermarked text. Specifically, we utilize two different models respectively for watermark generation and detection and add Gaussian and Uniform noise respectively in the embedding and permutation space during the training and inference stages of the watermark detector to enhance the certified robustness of our watermark detector and derive certified radius. To evaluate the empirical robustness and certified robustness of our watermark algorithm, we conducted comprehensive experiments. The results indicate that our watermark algorithm shows comparable performance to baseline algorithms while our algorithm can derive substantial certified robustness, which means that our watermark can not be removed even under significant alterations.
- Abstract(参考訳): AI生成テキスト識別における透かしアルゴリズムの有効性は注目されている。
同時に、様々なウォーターマーク攻撃に対するロバスト性を高めるために、ウォーターマークアルゴリズムの数が増加している。
しかし、これらの透かしアルゴリズムは、適応攻撃や見当たらない攻撃の影響を受けやすいままである。
この問題に対処するため,我々は,ランダムな平滑化に基づく大規模言語モデルに対して,最初の確証付き頑健な透かしアルゴリズムを提案し,透かし付きテキストの保証を提供する。
具体的には、透かし生成と検出にそれぞれ2つの異なるモデルを使用し、透かし検出器のトレーニングおよび推論段階における埋め込みおよび置換空間にガウスノイズと均一ノイズを加え、透かし検出器の信頼性を向上し、認証半径を導出する。
透かしアルゴリズムの実証的ロバスト性および証明的ロバスト性を評価するため,包括的実験を行った。
その結果,本アルゴリズムはベースラインアルゴリズムに匹敵する性能を示す一方で,精度の高いロバスト性が得られることが示唆された。
関連論文リスト
- Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。
ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。
本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文 参考訳(メタデータ) (2024-07-04T17:56:04Z) - Watermarking Language Models with Error Correcting Codes [41.21656847672627]
本稿では,誤り訂正符号を用いて統計的信号を符号化する透かしフレームワークを提案する。
提案手法は,ロバスト二元符号 (RBC) 透かしと呼ばれ,元の確率分布に比較して歪みは生じない。
私たちの経験的発見は、私たちの透かしは速く、強力で、堅牢であり、最先端のものと好意的に比較していることを示唆しています。
論文 参考訳(メタデータ) (2024-06-12T05:13:09Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - RAW: A Robust and Agile Plug-and-Play Watermark Framework for AI-Generated Images with Provable Guarantees [33.61946642460661]
本稿ではRAWと呼ばれる堅牢でアジャイルな透かし検出フレームワークを紹介する。
我々は、透かしの存在を検出するために、透かしと共同で訓練された分類器を用いる。
このフレームワークは,透かし画像の誤分類に対する偽陽性率に関する証明可能な保証を提供する。
論文 参考訳(メタデータ) (2024-01-23T22:00:49Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Robustness of AI-Image Detectors: Fundamental Limits and Practical
Attacks [47.04650443491879]
我々は、透かしやディープフェイク検出器を含む様々なAI画像検出器の堅牢性を分析する。
ウォーターマーキング手法は,攻撃者が実際の画像をウォーターマーキングとして識別することを目的としたスプーフ攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2023-09-29T18:30:29Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。