Fugu-MT 論文翻訳(概要): A Certified Robust Watermark For Large Language Models

論文の概要: A Certified Robust Watermark For Large Language Models

arxiv url: http://arxiv.org/abs/2409.19708v1
Date: Sun, 29 Sep 2024 13:51:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 21:29:26.245959
Title: A Certified Robust Watermark For Large Language Models
Title（参考訳）: 大規模言語モデルのための認証されたロバストな透かし
Authors: Xianheng Feng, Jian Liu, Kui Ren, Chun Chen,
Abstract要約: ランダムな平滑化に基づく大規模言語モデルのための,最初の認証済みロバストな透かしアルゴリズムを提案する。我々のアルゴリズムは、相当な確証のある頑健さを導き出すことができ、つまり、大きな変化があっても、透かしを除去できないことを意味する。
参考スコア（独自算出の注目度）: 14.944271622556778
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The effectiveness of watermark algorithms in AI-generated text identification has garnered significant attention. Concurrently, an increasing number of watermark algorithms have been proposed to enhance the robustness against various watermark attacks. However, these watermark algorithms remain susceptible to adaptive or unseen attacks. To address this issue, to our best knowledge, we propose the first certified robust watermark algorithm for large language models based on randomized smoothing, which can provide provable guarantees for watermarked text. Specifically, we utilize two different models respectively for watermark generation and detection and add Gaussian and Uniform noise respectively in the embedding and permutation space during the training and inference stages of the watermark detector to enhance the certified robustness of our watermark detector and derive certified radius. To evaluate the empirical robustness and certified robustness of our watermark algorithm, we conducted comprehensive experiments. The results indicate that our watermark algorithm shows comparable performance to baseline algorithms while our algorithm can derive substantial certified robustness, which means that our watermark can not be removed even under significant alterations.
Abstract（参考訳）: AI生成テキスト識別における透かしアルゴリズムの有効性は注目されている。同時に、様々なウォーターマーク攻撃に対するロバスト性を高めるために、ウォーターマークアルゴリズムの数が増加している。しかし、これらの透かしアルゴリズムは、適応攻撃や見当たらない攻撃の影響を受けやすいままである。この問題に対処するため,我々は,ランダムな平滑化に基づく大規模言語モデルに対して,最初の確証付き頑健な透かしアルゴリズムを提案し,透かし付きテキストの保証を提供する。具体的には、透かし生成と検出にそれぞれ2つの異なるモデルを使用し、透かし検出器のトレーニングおよび推論段階における埋め込みおよび置換空間にガウスノイズと均一ノイズを加え、透かし検出器の信頼性を向上し、認証半径を導出する。透かしアルゴリズムの実証的ロバスト性および証明的ロバスト性を評価するため,包括的実験を行った。その結果,本アルゴリズムはベースラインアルゴリズムに匹敵する性能を示す一方で,精度の高いロバスト性が得られることが示唆された。

関連論文リスト

ROBIN: Robust and Invisible Watermarks for Diffusion Models with Adversarial Optimization [15.570148419846175]
既存の透かし手法は、堅牢性と隠蔽のバランスをとるという課題に直面している。本稿では, 透かしを積極的に隠蔽し, より強力な透かしの埋め込みを可能にするための透かし隠蔽法を提案する。様々な拡散モデルの実験では、画像改ざんであっても透かしが検証可能であることが示されている。
論文参考訳（メタデータ） (2024-11-06T12:14:23Z)
An undetectable watermark for generative image models [65.31658824274894]
生成画像モデルに対する検出不能な最初の透かし方式を提案する。特に、検出不能な透かしは、効率的に計算可能なメートル法で画質を劣化させることはない。提案手法は,擬似乱数誤り訂正符号を用いて拡散モデルの初期潜時間を選択する。
論文参考訳（メタデータ） (2024-10-09T18:33:06Z)
Efficiently Identifying Watermarked Segments in Mixed-Source Texts [35.437251393372954]
部分透かし検出のための2つの新しい手法を提案する。まず,長文に透かしセグメントが存在するかどうかを判定するための幾何被覆検出フレームワークを開発する。第2に,テキスト内の透かしセグメントの正確な位置を特定できる適応型オンライン学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T16:58:41Z)
WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [65.11018806214388]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。検出精度と計算効率のバランスが良くなる。 WaterSeekerのローカライゼーション機能は、解釈可能なAI検出システムの開発をサポートする。
論文参考訳（メタデータ） (2024-09-08T14:45:47Z)
Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文参考訳（メタデータ） (2024-07-04T17:56:04Z)
Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。 Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文参考訳（メタデータ） (2024-03-12T16:25:38Z)
New Evaluation Metrics Capture Quality Degradation due to LLM Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文参考訳（メタデータ） (2023-12-04T22:56:31Z)
Improving the Generation Quality of Watermarked Large Language Models via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。 We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文参考訳（メタデータ） (2023-11-16T08:36:00Z)
Robustness of AI-Image Detectors: Fundamental Limits and Practical Attacks [47.04650443491879]
我々は、透かしやディープフェイク検出器を含む様々なAI画像検出器の堅牢性を分析する。ウォーターマーキング手法は,攻撃者が実際の画像をウォーターマーキングとして識別することを目的としたスプーフ攻撃に対して脆弱であることを示す。
論文参考訳（メタデータ） (2023-09-29T18:30:29Z)
An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文参考訳（メタデータ） (2023-07-30T13:43:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。