Fugu-MT 論文翻訳(概要): Black-Box Detection of Language Model Watermarks

論文の概要: Black-Box Detection of Language Model Watermarks

arxiv url: http://arxiv.org/abs/2405.20777v3
Date: Mon, 24 Feb 2025 14:06:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.325609
Title: Black-Box Detection of Language Model Watermarks
Title（参考訳）: 言語モデル透かしのブラックボックス検出
Authors: Thibaud Gloaguen, Nikola Jovanović, Robin Staab, Martin Vechev,
Abstract要約: 我々は,3つの人気のある透かしスキームファミリーのパラメータを検出し,推定するための厳密な統計試験を開発した。提案手法の有効性を,多種多様なオープンソースモデルを用いて実験的に検証した。以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であることが示唆された。
参考スコア（独自算出の注目度）: 1.9374282535132377
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Watermarking has emerged as a promising way to detect LLM-generated text, by augmenting LLM generations with later detectable signals. Recent work has proposed multiple families of watermarking schemes, several of which focus on preserving the LLM distribution. This distribution-preservation property is motivated by the fact that it is a tractable proxy for retaining LLM capabilities, as well as the inherently implied undetectability of the watermark by downstream users. Yet, despite much discourse around undetectability, no prior work has investigated the practical detectability of any of the current watermarking schemes in a realistic black-box setting. In this work we tackle this for the first time, developing rigorous statistical tests to detect the presence, and estimate parameters, of all three popular watermarking scheme families, using only a limited number of black-box queries. We experimentally confirm the effectiveness of our methods on a range of schemes and a diverse set of open-source models. Further, we validate the feasibility of our tests on real-world APIs. Our findings indicate that current watermarking schemes are more detectable than previously believed.
Abstract（参考訳）: ウォーターマーキングは、後に検出可能な信号でLLM世代を増強することで、LLM生成テキストを検出するための有望な方法として登場した。近年の研究では複数の透かし方式が提案されており、その一部はLLM分布の保存に重点を置いている。この分布保存特性は,LLM機能を維持するためのトラクタブルプロキシであると同時に,下流ユーザによる透かしの本質的に意図しない検出性によってもたらされる。しかし、検出不可能性に関する多くの議論にもかかわらず、現実的なブラックボックス設定における現在の透かしスキームのいずれかの実用的検出可能性について、事前の研究は行われていない。本研究は,ブラックボックスクエリの限られた数のみを用いて,一般的な3つのウォーターマーキングスキーム群の存在を検知し,パラメータを推定する厳密な統計的試験を初めて実施する。提案手法の有効性を,多種多様なオープンソースモデルを用いて実験的に検証した。さらに、実世界のAPIにおけるテストの実現可能性についても検証する。以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であることが示唆された。

関連論文リスト

How Good is Post-Hoc Watermarking With Language Model Rephrasing? [43.5649433230903]
生成時のテキスト透かしは、AI生成コンテンツのトレーサビリティのために統計信号をテキストに埋め込む。 LLMが生成時透かしを適用しながら既存のテキストを書き換えるポストホック透かしについて検討する。本手法は,書籍などのオープンエンドテキストに対して,強い検出性と意味的忠実性を実現する。
論文参考訳（メタデータ） (2025-12-18T18:57:33Z)
Detecting Post-generation Edits to Watermarked LLM Outputs via Combinatorial Watermarking [51.417096446156926]
ウォーターマークされたLCM出力に局所的に編集されたポストジェネレーションの編集を検出する。本稿では,語彙を部分集合に分割し,透かしを埋め込むパターンベースの透かしフレームワークを提案する。本手法は,様々な編集シナリオにおけるオープンソースのLCMについて評価し,編集ローカライゼーションにおける強力な経験的性能を示す。
論文参考訳（メタデータ） (2025-10-02T03:33:12Z)
An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。 ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文参考訳（メタデータ） (2025-09-28T19:37:44Z)
Yet Another Watermark for Large Language Models [20.295405732813748]
既存の大規模言語モデル(LLM)の透かし手法は、トークンサンプリング予測や後処理を調整することで透かしを埋め込む。本稿では, LLMの内部パラメータを操作することで, LLMの内部に透かしを埋め込む新しい透かしフレームワークを提案する。提案手法は, 透かしの頑健さと非受容性のバランスを良くするため, LLMの固有パラメータと透かしの絡み合わせを行う。
論文参考訳（メタデータ） (2025-09-16T02:04:55Z)
StealthInk: A Multi-bit and Stealthy Watermark for Large Language Models [4.76514657698929]
StealthInkは、大規模言語モデル(LLM)のためのステルスなマルチビット透かし方式である元のテキスト配布を保存し、証明データの埋め込みを可能にする。固定等誤り率で透かし検出に必要なトークン数に対する低い境界を導出する。
論文参考訳（メタデータ） (2025-06-05T18:37:38Z)
LLM Watermarking Using Mixtures and Statistical-to-Computational Gaps [3.9287497907611875]
テキストが与えられたら、大きな言語モデル(LLM)が生成したのか、それとも人間が生成したのかを判断できますか? 閉鎖条件下では検出不能な透かし方式を提案する。また、敵がほとんどのモデルにアクセスできる厳しいオープン環境では、除去不能な透かし方式を提案する。
論文参考訳（メタデータ） (2025-05-02T16:36:43Z)
Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文参考訳（メタデータ） (2025-04-16T14:16:38Z)
Toward Breaking Watermarks in Distortion-free Large Language Models [11.922206306917435]
我々は,LSMを「妥協」し,スプーフィング攻撃を行うことが可能であることを示す。具体的には,ウォーターマーキングに用いる秘密鍵を正確に推定する混合整数線形プログラミングフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-25T19:52:55Z)
NSmark: Null Space Based Black-box Watermarking Defense Framework for Pre-trained Language Models [24.864736672581937]
LL-LFEA攻撃に抵抗できるタスク非依存のブラックボックス透かし方式を提案する。 NSmarkは, (i) 所有者のデジタル署名を用いた透かし生成, (i) 拡散スペクトル変調による高ロバスト性向上, (ii) 透かし容量を最大化しながらPLM性能を維持する出力マッピング抽出器による透かし埋め込み, (iii) 抽出率と空隙整合性により評価された透かし検証の3段階からなる。
論文参考訳（メタデータ） (2024-10-16T14:45:27Z)
Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文参考訳（メタデータ） (2024-10-04T06:01:27Z)
WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [63.563031923075066]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。検出精度と計算効率のバランスが良くなる。
論文参考訳（メタデータ） (2024-09-08T14:45:47Z)
PostMark: A Robust Blackbox Watermark for Large Language Models [56.63560134428716]
モジュール式ポストホックウォーターマーキング手法であるPostMarkを開発した。 PostMarkはロジットアクセスを必要としないため、サードパーティによって実装することができる。 PostMarkは既存のウォーターマーキング手法よりも,攻撃を言い換える方が堅牢であることを示す。
論文参考訳（メタデータ） (2024-06-20T17:27:14Z)
Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文参考訳（メタデータ） (2024-05-30T04:11:17Z)
Watermarking Low-entropy Generation for Large Language Models: An Unbiased and Low-risk Method [6.505831742654826]
STA-1は、予想された元のトークン分布を保存する不偏の透かしである。低エントロピーおよび高エントロピーデータセットの実験結果は、STA-1が上記の特性を同時に達成できることを証明している。
論文参考訳（メタデータ） (2024-05-23T14:17:29Z)
A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。枠組みに基づく透かしの最適検出規則を導出する。
論文参考訳（メタデータ） (2024-04-01T17:03:41Z)
Learning to Watermark LLM-generated Text via Reinforcement Learning [16.61005372279407]
誤用追跡のためのLCM出力の透かしについて検討する。出力に信号を埋め込むモデルレベルの透かしを設計する。強化学習に基づく協調学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-13T03:43:39Z)
Watermark Stealing in Large Language Models [2.1165011830664673]
本研究では,透かし付きLLMのAPIをほぼリバースエンジニアリングにクエリすることで,実用的なスプーフィング攻撃を可能にすることを示す。私たちは、自動化されたWSアルゴリズムを初めて提案し、それを、現実的な環境でのスプーフィングとスクラブの最初の包括的な研究で使用します。
論文参考訳（メタデータ） (2024-02-29T17:12:39Z)
Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。本手法は,検出性と意味的整合性を同時に達成する。
論文参考訳（メタデータ） (2024-02-28T05:43:22Z)
Proving membership in LLM pretraining data via data watermarks [20.57538940552033]
この研究は、ブラックボックスモデルアクセスのみで原則付き検出を可能にするために、データ透かしを使うことを提案する。ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。 BLOOM-176Bのトレーニングデータから,少なくとも90回はハッシュを確実に検出できることを示す。
論文参考訳（メタデータ） (2024-02-16T18:49:27Z)
Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文参考訳（メタデータ） (2023-11-16T03:22:53Z)
An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文参考訳（メタデータ） (2023-07-30T13:43:27Z)
On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。人や機械の言い回しをしても、透かしは検出可能である。また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文参考訳（メタデータ） (2023-06-07T17:58:48Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。