Fugu-MT 論文翻訳(概要): Black-Box Detection of Language Model Watermarks

論文の概要: Black-Box Detection of Language Model Watermarks

arxiv url: http://arxiv.org/abs/2405.20777v1
Date: Tue, 28 May 2024 08:41:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 14:37:39.501032
Title: Black-Box Detection of Language Model Watermarks
Title（参考訳）: 言語モデル透かしのブラックボックス検出
Authors: Gloaguen Thibaud, Jovanović Nikola, Staab Robin, Vechev Martin,
Abstract要約: 我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Watermarking has emerged as a promising way to detect LLM-generated text. To apply a watermark an LLM provider, given a secret key, augments generations with a signal that is later detectable by any party with the same key. Recent work has proposed three main families of watermarking schemes, two of which focus on the property of preserving the LLM distribution. This is motivated by it being a tractable proxy for maintaining LLM capabilities, but also by the idea that concealing a watermark deployment makes it harder for malicious actors to hide misuse by avoiding a certain LLM or attacking its watermark. Yet, despite much discourse around detectability, no prior work has investigated if any of these scheme families are detectable in a realistic black-box setting. We tackle this for the first time, developing rigorous statistical tests to detect the presence of all three most popular watermarking scheme families using only a limited number of black-box queries. We experimentally confirm the effectiveness of our methods on a range of schemes and a diverse set of open-source models. Our findings indicate that current watermarking schemes are more detectable than previously believed, and that obscuring the fact that a watermark was deployed may not be a viable way for providers to protect against adversaries. We further apply our methods to test for watermark presence behind the most popular public APIs: GPT4, Claude 3, Gemini 1.0 Pro, finding no strong evidence of a watermark at this point in time.
Abstract（参考訳）: 透かしはLLM生成テキストを検出するための有望な方法として登場した。 LLMプロバイダがシークレットキーを付与した透かしを適用できるようにする。最近の研究は3つの主要な透かし方式を提案しており、そのうち2つはLLM分布の保存性に焦点を当てている。これは、LLM機能を維持するための魅力的なプロキシであると同時に、透かしの配置を隠すことで、悪意のあるアクターが特定のLCMを避けたり、その透かしを攻撃したりすることで誤用を隠すのが難しくなるという考えによっても動機づけられている。しかし、検出可能性に関して多くの議論があるにもかかわらず、これらのスキームファミリーのうちどれかが現実的なブラックボックス設定で検出可能かどうかを以前の研究は調査していない。ブラックボックスクエリの限られた数だけを用いて、最も人気のある3つの透かしスキーム群すべての存在を検出するための厳密な統計的テストを開発した。提案手法の有効性を,多種多様なオープンソースモデルを用いて実験的に検証した。以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。 GPT4、Claude 3、Gemini 1.0 Proといった一般的な公開APIの背後にある透かしの存在をテストするために、私たちのメソッドをさらに適用します。

関連論文リスト

StealthInk: A Multi-bit and Stealthy Watermark for Large Language Models [4.76514657698929]
StealthInkは、大規模言語モデル(LLM)のためのステルスなマルチビット透かし方式である元のテキスト配布を保存し、証明データの埋め込みを可能にする。固定等誤り率で透かし検出に必要なトークン数に対する低い境界を導出する。
論文参考訳（メタデータ） (2025-06-05T18:37:38Z)
LLM Watermarking Using Mixtures and Statistical-to-Computational Gaps [3.9287497907611875]
テキストが与えられたら、大きな言語モデル(LLM)が生成したのか、それとも人間が生成したのかを判断できますか? 閉鎖条件下では検出不能な透かし方式を提案する。また、敵がほとんどのモデルにアクセスできる厳しいオープン環境では、除去不能な透かし方式を提案する。
論文参考訳（メタデータ） (2025-05-02T16:36:43Z)
Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文参考訳（メタデータ） (2025-04-16T14:16:38Z)
Toward Breaking Watermarks in Distortion-free Large Language Models [11.922206306917435]
我々は,LSMを「妥協」し,スプーフィング攻撃を行うことが可能であることを示す。具体的には,ウォーターマーキングに用いる秘密鍵を正確に推定する混合整数線形プログラミングフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-25T19:52:55Z)
NSmark: Null Space Based Black-box Watermarking Defense Framework for Pre-trained Language Models [24.864736672581937]
LL-LFEA攻撃に抵抗できるタスク非依存のブラックボックス透かし方式を提案する。 NSmarkは, (i) 所有者のデジタル署名を用いた透かし生成, (i) 拡散スペクトル変調による高ロバスト性向上, (ii) 透かし容量を最大化しながらPLM性能を維持する出力マッピング抽出器による透かし埋め込み, (iii) 抽出率と空隙整合性により評価された透かし検証の3段階からなる。
論文参考訳（メタデータ） (2024-10-16T14:45:27Z)
Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文参考訳（メタデータ） (2024-10-04T06:01:27Z)
WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [63.563031923075066]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。検出精度と計算効率のバランスが良くなる。
論文参考訳（メタデータ） (2024-09-08T14:45:47Z)
PostMark: A Robust Blackbox Watermark for Large Language Models [56.63560134428716]
モジュール式ポストホックウォーターマーキング手法であるPostMarkを開発した。 PostMarkはロジットアクセスを必要としないため、サードパーティによって実装することができる。 PostMarkは既存のウォーターマーキング手法よりも,攻撃を言い換える方が堅牢であることを示す。
論文参考訳（メタデータ） (2024-06-20T17:27:14Z)
Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文参考訳（メタデータ） (2024-05-30T04:11:17Z)
Watermarking Low-entropy Generation for Large Language Models: An Unbiased and Low-risk Method [6.505831742654826]
STA-1は、予想された元のトークン分布を保存する不偏の透かしである。低エントロピーおよび高エントロピーデータセットの実験結果は、STA-1が上記の特性を同時に達成できることを証明している。
論文参考訳（メタデータ） (2024-05-23T14:17:29Z)
A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。枠組みに基づく透かしの最適検出規則を導出する。
論文参考訳（メタデータ） (2024-04-01T17:03:41Z)
Learning to Watermark LLM-generated Text via Reinforcement Learning [16.61005372279407]
誤用追跡のためのLCM出力の透かしについて検討する。出力に信号を埋め込むモデルレベルの透かしを設計する。強化学習に基づく協調学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-13T03:43:39Z)
Watermark Stealing in Large Language Models [2.1165011830664673]
本研究では,透かし付きLLMのAPIをほぼリバースエンジニアリングにクエリすることで,実用的なスプーフィング攻撃を可能にすることを示す。私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
論文参考訳（メタデータ） (2024-02-29T17:12:39Z)
Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。本手法は,検出性と意味的整合性を同時に達成する。
論文参考訳（メタデータ） (2024-02-28T05:43:22Z)
Proving membership in LLM pretraining data via data watermarks [20.57538940552033]
この研究は、ブラックボックスモデルアクセスのみで原則付き検出を可能にするために、データ透かしを使うことを提案する。ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。 BLOOM-176Bのトレーニングデータから,少なくとも90回はハッシュを確実に検出できることを示す。
論文参考訳（メタデータ） (2024-02-16T18:49:27Z)
Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文参考訳（メタデータ） (2023-11-16T03:22:53Z)
An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文参考訳（メタデータ） (2023-07-30T13:43:27Z)
On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。人や機械の言い回しをしても、透かしは検出可能である。また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文参考訳（メタデータ） (2023-06-07T17:58:48Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。