論文の概要: Lost in Overlap: Exploring Watermark Collision in LLMs
- arxiv url: http://arxiv.org/abs/2403.10020v2
- Date: Wed, 14 Aug 2024 13:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 17:56:45.993135
- Title: Lost in Overlap: Exploring Watermark Collision in LLMs
- Title(参考訳): オーバーラップによる損失 - LLMにおける透かし衝突の探索
- Authors: Yiyang Luo, Ke Lin, Chao Gu,
- Abstract要約: 我々は、透かし攻撃の斬新で一般的な哲学として透かし衝突を導入する。
我々は、透かし衝突が全てのロジットベースの透かしアルゴリズムに脅威をもたらすという総合的なデモンストレーションを提供する。
- 参考スコア(独自算出の注目度): 6.398660996031915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of large language models (LLMs) in generating content raises concerns about text copyright. Watermarking methods, particularly logit-based approaches, embed imperceptible identifiers into text to address these challenges. However, the widespread usage of watermarking across diverse LLMs has led to an inevitable issue known as watermark collision during common tasks, such as paraphrasing or translation. In this paper, we introduce watermark collision as a novel and general philosophy for watermark attacks, aimed at enhancing attack performance on top of any other attacking methods. We also provide a comprehensive demonstration that watermark collision poses a threat to all logit-based watermark algorithms, impacting not only specific attack scenarios but also downstream applications.
- Abstract(参考訳): コンテンツ生成における大きな言語モデル(LLM)の拡散は、テキスト著作権に対する懸念を高めている。
ウォーターマーキング、特にロジットベースのアプローチは、これらの課題に対処するために、認識不能な識別子をテキストに埋め込む。
しかし、多種多様なLSMにまたがる透かしの広範な使用は、パラフレーズや翻訳などの一般的な作業において、透かし衝突と呼ばれる必然的な問題を引き起こしている。
本稿では,他の攻撃手法上での攻撃性能の向上を目的とした,透かし攻撃の新規かつ一般的な哲学として透かし衝突を導入する。
我々はまた、透かし衝突が全てのロジットベースの透かしアルゴリズムに脅威を与え、特定の攻撃シナリオだけでなく、下流アプリケーションにも影響を及ぼすという包括的なデモンストレーションも提供する。
関連論文リスト
- Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Can Watermarks Survive Translation? On the Cross-lingual Consistency of Text Watermark for Large Language Models [48.409979469683975]
テキスト透かしにおける言語間整合性の概念を紹介する。
予備的な実証実験の結果、現在のテキスト透かし技術は、テキストが様々な言語に翻訳されるときに一貫性が欠如していることが判明した。
透かしを回避するための言語横断型透かし除去攻撃(CWRA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T18:48:38Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。