論文の概要: Can Watermarks Survive Translation? On the Cross-lingual Consistency of
Text Watermark for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14007v1
- Date: Wed, 21 Feb 2024 18:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:05:04.833410
- Title: Can Watermarks Survive Translation? On the Cross-lingual Consistency of
Text Watermark for Large Language Models
- Title(参考訳): 透かしは翻訳を救えるか?
大規模言語モデルにおけるテキストウォーターマークの言語間一貫性について
- Authors: Zhiwei He, Binglin Zhou, Hongkun Hao, Aiwei Liu, Xing Wang, Zhaopeng
Tu, Zhuosheng Zhang, Rui Wang
- Abstract要約: 現在のテキスト透かし技術は、テキストが様々な言語に翻訳されるときの一貫性を欠いている。
透かしを回避するための言語横断型透かし除去攻撃(CWRA)を提案する。
CWRAは、性能を損なわずに、AUC(Area Under the Curve)を0.95から0.67に減らし、ウォーターマークを効果的に除去することができる。
- 参考スコア(独自算出の注目度): 50.49500726536929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text watermarking technology aims to tag and identify content produced by
large language models (LLMs) to prevent misuse. In this study, we introduce the
concept of ''cross-lingual consistency'' in text watermarking, which assesses
the ability of text watermarks to maintain their effectiveness after being
translated into other languages. Preliminary empirical results from two LLMs
and three watermarking methods reveal that current text watermarking
technologies lack consistency when texts are translated into various languages.
Based on this observation, we propose a Cross-lingual Watermark Removal Attack
(CWRA) to bypass watermarking by first obtaining a response from an LLM in a
pivot language, which is then translated into the target language. CWRA can
effectively remove watermarks by reducing the Area Under the Curve (AUC) from
0.95 to 0.67 without performance loss. Furthermore, we analyze two key factors
that contribute to the cross-lingual consistency in text watermarking and
propose a defense method that increases the AUC from 0.67 to 0.88 under CWRA.
- Abstract(参考訳): テキスト透かし技術は、大きな言語モデル(LLM)が生成したコンテンツをタグ付けして識別することを目的としている。
本研究では,テキスト透かしにおける「言語間整合性」の概念を導入し,テキスト透かしが他の言語に翻訳されても有効性を維持する能力を評価する。
2つのLCMと3つの透かし手法による予備的な実証結果から、現在のテキスト透かし技術は、テキストを様々な言語に翻訳する際に一貫性が欠如していることが分かる。
そこで本研究では,まずLLMからの応答をピボット言語で取得し,対象言語に翻訳することで,透かしを回避するための言語間透かし除去攻撃(CWRA)を提案する。
CWRAは、性能を損なわずに、AUC(Area Under the Curve)を0.95から0.67に減らし、ウォーターマークを効果的に除去することができる。
さらに,テキスト透かしにおける言語間整合性に寄与する2つの要因を分析し,CWRAの下でAUCを0.67から0.88に増加させる防御法を提案する。
関連論文リスト
- Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - On Evaluating The Performance of Watermarked Machine-Generated Texts Under Adversarial Attacks [20.972194348901958]
まず、メインストリームのウォーターマーキングスキームと、機械生成テキストに対する削除攻撃を組み合わせます。
8つの透かし(5つのプレテキスト、3つのポストテキスト)と12のアタック(2つのプレテキスト、10のポストテキスト)を87のシナリオで評価した。
その結果、KGWとExponentialの透かしは高いテキスト品質と透かしの保持を提供するが、ほとんどの攻撃に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2024-07-05T18:09:06Z) - Mark My Words: Analyzing and Evaluating Language Model Watermarks [8.025719866615333]
この研究は、画像やモデル透かしとは対照的に、出力透かし技術に焦点を当てている。
品質、サイズ(透かしを検出するのに必要となるトークンの数)、抵抗の改ざんという3つの主要な指標に注目します。
論文 参考訳(メタデータ) (2023-12-01T01:22:46Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。