論文の概要: Modification and Generated-Text Detection: Achieving Dual Detection Capabilities for the Outputs of LLM by Watermark
- arxiv url: http://arxiv.org/abs/2502.08332v1
- Date: Wed, 12 Feb 2025 11:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:03.983816
- Title: Modification and Generated-Text Detection: Achieving Dual Detection Capabilities for the Outputs of LLM by Watermark
- Title(参考訳): 修正・生成テキスト検出:透かしによるLCM出力のデュアル検出機能の実現
- Authors: Yuhang Cai, Yaofei Wang, Donghui Hu, Gu Chen,
- Abstract要約: 1つの実用的な解決策は、透かしをテキストに埋め込むことで、透かし抽出によるオーナシップの検証を可能にする。
既存の手法は主に修正攻撃に対する防御に重点を置いており、しばしば他の偽造攻撃を無視している。
本研究では, 修正に敏感な不偏形透かしに対して, テキスト中の修正を検出する手法を提案する。
- 参考スコア(独自算出の注目度): 5.655861981730719
- License:
- Abstract: The development of large language models (LLMs) has raised concerns about potential misuse. One practical solution is to embed a watermark in the text, allowing ownership verification through watermark extraction. Existing methods primarily focus on defending against modification attacks, often neglecting other spoofing attacks. For example, attackers can alter the watermarked text to produce harmful content without compromising the presence of the watermark, which could lead to false attribution of this malicious content to the LLM. This situation poses a serious threat to the LLMs service providers and highlights the significance of achieving modification detection and generated-text detection simultaneously. Therefore, we propose a technique to detect modifications in text for unbiased watermark which is sensitive to modification. We introduce a new metric called ``discarded tokens", which measures the number of tokens not included in watermark detection. When a modification occurs, this metric changes and can serve as evidence of the modification. Additionally, we improve the watermark detection process and introduce a novel method for unbiased watermark. Our experiments demonstrate that we can achieve effective dual detection capabilities: modification detection and generated-text detection by watermark.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は、潜在的な誤用に対する懸念を引き起こしている。
1つの実用的な解決策は、透かしをテキストに埋め込むことで、透かし抽出によるオーナシップの検証を可能にする。
既存の手法は主に修正攻撃に対する防御に重点を置いており、しばしば他の偽造攻撃を無視している。
例えば、攻撃者は、透かしのあるテキストを変更して有害なコンテンツを生成することで、透かしの存在を損なうことなく、この悪意のあるコンテンツがLLMに偽の帰属をもたらす可能性がある。
この状況は、LLMsサービスプロバイダに深刻な脅威をもたらし、修正検出と生成されたテキスト検出を同時に達成することの重要性を強調します。
そこで本稿では,修正に敏感な非偏平透かしのテキスト中の修正を検出する手法を提案する。
ウォーターマーク検出に含まれないトークンの数を計測する, ‘discarded tokens’ と呼ばれる新しいメトリックを導入する。
修正が発生すると、この計量は変化し、修正の証拠として機能する。
さらに,透かし検出のプロセスを改善し,新しい透かし検出手法を提案する。
実験により,水印による修正検出と生成テキスト検出という,効果的な二重検出機能を実現することができることを示した。
関連論文リスト
- Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。
我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。
実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文 参考訳(メタデータ) (2024-10-04T06:01:27Z) - Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Is The Watermarking Of LLM-Generated Code Robust? [5.48277165801539]
コードベースのコンテキストでは、ウォーターマーキングのテクニックがはるかに脆弱であることを示します。
具体的には、変数リネームやデッドコード挿入といった単純なセマンティック保存変換が、ウォーターマークを効果的に消去できることを示す。
論文 参考訳(メタデータ) (2024-03-24T21:41:29Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - I Know You Did Not Write That! A Sampling Based Watermarking Method for
Identifying Machine Generated Text [0.0]
機械生成テキストを検出するための新しい透かし手法を提案する。
我々の方法は生成されたテキストにユニークなパターンを埋め込む。
本稿では,透かしがテキスト品質にどのように影響するかを示し,提案手法を最先端の透かし法と比較する。
論文 参考訳(メタデータ) (2023-11-29T20:04:57Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。