論文の概要: Vaporizer: Breaking Watermarking Schemes for Large Language Model Outputs
- arxiv url: http://arxiv.org/abs/2605.07481v1
- Date: Fri, 08 May 2026 09:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.952327
- Title: Vaporizer: Breaking Watermarking Schemes for Large Language Model Outputs
- Title(参考訳): Vaporizer: 大規模言語モデル出力のためのウォーターマーキングスキームのブレークスルー
- Authors: Jonathan Hong Jin Ng, Anh Tu Ngo, Anupam Chattopadhyay,
- Abstract要約: 大規模言語モデル(LLM)の出力を透かし、最新の最先端のスキームについて検討する。
我々は、修正テキスト攻撃の広範囲な収集に対して、これらの透かし手法の有効性を分析する。
- 参考スコア(独自算出の注目度): 2.5756681494057045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the recent state-of-the-art schemes for watermarking large language models (LLMs) outputs. These techniques are claimed to be robust, scalable and production-grade, aimed at promoting responsible usage of LLMs. We analyse the effectiveness of these watermarking techniques against an extensive collection of modified text attacks, which perform targeted semantic changes without altering the general meaning of the text content. Our approach encompasses multiple attack strategies, which include lexical alterations, machine translation, and even neural paraphrasing. The attack efficacy is measured with two target criteria - successful removal of the watermark and preservation of semantic content. We evaluate semantic preservation through BERT scores, text complexity measures, grammatical errors, and Flesch Reading Ease indices. The experimental results reveal varying levels of effectiveness among different watermarking models, with the same underlying result that it is possible to remove the watermark with reasonable effort. This study sheds light on the strengths and weaknesses of existing LLM watermarking systems, suggesting how they should be constructed to improve security of available schemes.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の出力を透かし,最新の最先端の手法について検討する。
これらの技術は堅牢でスケーラブルでプロダクショングレードであり、LCMの責任ある使用を促進することを目的としている。
テキスト内容の一般的な意味を変化させることなく、目的のセマンティックな変更を行うような、修正されたテキストアタックの広範囲な収集に対して、これらの透かし手法の有効性を解析する。
我々のアプローチには、語彙変更、機械翻訳、さらには神経パラフレーズを含む複数の攻撃戦略が含まれています。
攻撃効果は,透かしの除去とセマンティックな内容の保存の2つの基準で測定される。
我々は,BERTスコア,テキスト複雑度測定,文法的誤り,フレッシュ読解の指標を用いて意味保存を評価する。
実験の結果,異なる透かしモデル間で異なる効果のレベルが示され,同じ基礎となる結果が妥当な努力で透かしを除去することが可能である。
本研究は,既存のLCM透かしシステムの長所と短所に光を当て,利用可能なスキームの安全性を向上させるためにどのように構築すべきかを示唆するものである。
関連論文リスト
- Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - In-Context Watermarks for Large Language Models [71.29952527565749]
In-Context Watermarking (ICW)は、インシデントエンジニアリングのみで生成されたテキストに透かしを埋め込む。
粒度の異なる4つのICW戦略について検討した。
本実験は,モデルに依存しない実用的な透かし手法としてのICWの実現可能性を検証するものである。
論文 参考訳(メタデータ) (2025-05-22T17:24:51Z) - BiMarker: Enhancing Text Watermark Detection for Large Language Models with Bipolar Watermarks [13.741307434082033]
既存の透かし技術は、低い透かし強度と厳しい偽陽性要件に苦しむ。
ツールは生成されたテキストを正極と負極に分割し、追加の計算リソースを必要とせずに検出を強化する。
論文 参考訳(メタデータ) (2025-01-21T14:32:50Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。