論文の概要: Ensemble Watermarks for Large Language Models
- arxiv url: http://arxiv.org/abs/2411.19563v1
- Date: Fri, 29 Nov 2024 09:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:50.293775
- Title: Ensemble Watermarks for Large Language Models
- Title(参考訳): 大規模言語モデルのためのアンサンブル透かし
- Authors: Georg Niess, Roman Kern,
- Abstract要約: アクロスティカとセンセーモトルのノルムは、確立された赤緑色の透かしと組み合わせて98%の検知率を達成する。
すべての特徴組合せの評価により,3つのアンサンブルが常に高い検出率を有することが明らかとなった。
この方法は特に説明責任の促進と社会的害の予防に重要である。
- 参考スコア(独自算出の注目度): 1.89915151018241
- License:
- Abstract: The rapid advancement of large language models (LLMs) has made it increasingly difficult to distinguish between text written by humans and machines. While watermarks already exist for LLMs, they often lack flexibility, and struggle with attacks such as paraphrasing. To address these issues, we propose a multi-feature method for generating watermarks that combines multiple distinct watermark features into an ensemble watermark. Concretely, we combine acrostica and sensorimotor norms with the established red-green watermark to achieve a 98% detection rate. After a paraphrasing attack the performance remains high with 95% detection rate. The red-green feature alone as baseline achieves a detection rate of 49%. The evaluation of all feature combinations reveals that the ensemble of all three consistently has the highest detection rate across several LLMs and watermark strength settings. Due to the flexibility of combining features in the ensemble, various requirements and trade-offs can be addressed. Additionally, for all ensemble configurations the same detection function can be used without adaptations. This method is particularly of interest to facilitate accountability and prevent societal harm.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、人間と機械によって書かれたテキストの区別がますます困難になっている。
LLMには既に透かしがあるが、柔軟性に欠け、パラフレージングのような攻撃に苦しむことが多い。
これらの問題に対処するために,複数の異なる透かし特徴をアンサンブル透かしに組み合わせた透かしを生成する多機能方式を提案する。
具体的には、アクロスティカと感覚運動のノルムを、確立された赤緑色の透かしと組み合わせて、98%の検知率を達成する。
パラフレーズ攻撃の後、95%の検知率で性能は高いままである。
ベースラインとしての赤緑色の特徴だけで、検出率は49%に達する。
これらの特徴の組み合わせについて評価した結果,3つのアンサンブルは複数のLLMおよび透かし強度設定において常に高い検出率を有することが明らかとなった。
アンサンブルにおける機能の組み合わせの柔軟性のため、さまざまな要件やトレードオフに対処できる。
さらに、すべてのアンサンブル構成に対して、同じ検出関数を適応なしで使用することができる。
この方法は特に説明責任の促進と社会的危害の予防に重要である。
関連論文リスト
- Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。
この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。
提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文 参考訳(メタデータ) (2024-10-09T04:49:03Z) - Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。
我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。
実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文 参考訳(メタデータ) (2024-10-04T06:01:27Z) - Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - GumbelSoft: Diversified Language Model Watermarking via the GumbelMax-trick [50.35069175236422]
大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。
デコードベースの透かし、特にGumbelMax-trickベースの透かし(GM透かし)は、機械生成テキストを保護するためのスタンドアウトソリューションである。
我々は,新しいタイプのGM透かし,Logits-Addition透かし,およびその3つの変種を提案する。
論文 参考訳(メタデータ) (2024-02-20T12:05:47Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Downstream Trade-offs of a Family of Text Watermarks [25.408313192999504]
多様なタスク群に対する3つの異なる戦略を用いて,LLMの性能評価を行った。
電子透かしは全てのタスクにおいて LLM の有効性を著しく低下させる可能性がある。
この結果から,透かしモデルを用いた場合,ユーザが認識すべきトレードオフが浮き彫りになった。
論文 参考訳(メタデータ) (2023-11-16T11:44:58Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。