論文の概要: On the Reliability of Watermarks for Large Language Models
- arxiv url: http://arxiv.org/abs/2306.04634v1
- Date: Wed, 7 Jun 2023 17:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:03:32.320205
- Title: On the Reliability of Watermarks for Large Language Models
- Title(参考訳): 大規模言語モデルの透かしの信頼性について
- Authors: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid
Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum and Tom
Goldstein
- Abstract要約: 大規模言語モデル(LLM)が日々の使用にデプロイされ、大量のテキストを生成する位置に配置されている。
ウォーターマーキングはそのような害を緩和するためのシンプルで効果的な戦略である。
野生の現実的な環境での透かしはどの程度信頼できるのか?
- 参考スコア(独自算出の注目度): 50.01830399815094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are now deployed to everyday use and positioned
to produce large quantities of text in the coming decade. Machine-generated
text may displace human-written text on the internet and has the potential to
be used for malicious purposes, such as spearphishing attacks and social media
bots. Watermarking is a simple and effective strategy for mitigating such harms
by enabling the detection and documentation of LLM-generated text. Yet, a
crucial question remains: How reliable is watermarking in realistic settings in
the wild? There, watermarked text might be mixed with other text sources,
paraphrased by human writers or other language models, and used for
applications in a broad number of domains, both social and technical. In this
paper, we explore different detection schemes, quantify their power at
detecting watermarks, and determine how much machine-generated text needs to be
observed in each scenario to reliably detect the watermark. We especially
highlight our human study, where we investigate the reliability of watermarking
when faced with human paraphrasing. We compare watermark-based detection to
other detection strategies, finding overall that watermarking is a reliable
solution, especially because of its sample complexity - for all attacks we
consider, the watermark evidence compounds the more examples are given, and the
watermark is eventually detected.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、日々の使用にデプロイされ、今後10年間で大量のテキストを生成する位置に配置されている。
マシン生成テキストは、インターネット上で人間が書いたテキストを破棄する可能性があり、スピアフィッシング攻撃やソーシャルメディアボットなど、悪意のある目的で使用される可能性がある。
ウォーターマーキングは、LCM生成テキストの検出と文書化を可能にすることで、そのような害を緩和するためのシンプルで効果的な戦略である。
しかし、重要な疑問が残る:野生の現実的な環境で、ウォーターマーキングはどの程度信頼できるのか?
そこでは、透かし付きテキストは他のテキストソースと混同され、人間の作家や他の言語モデルによって言い換えられ、社会的および技術的両方の幅広い領域での応用に使用される。
本稿では,異なる検出方式を検討し,透かし検出のパワーを定量化し,各シナリオにおいてマシン生成テキストをどの程度観察する必要があるかを判定し,透かしを確実に検出する。
特に,人間のパラフレージングに直面する際の透かしの信頼性について検討した。
我々は、透かしに基づく検出と他の検出戦略を比較し、透かしが信頼性の高い解であること、特にサンプルの複雑さのため、透かしの証拠はより多くの例が与えられ、最終的に透かしが検出される。
関連論文リスト
- Adaptive Text Watermark for Large Language Models [9.569222603139332]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - Mark My Words: Analyzing and Evaluating Language Model Watermarks [8.610361087746718]
本研究は、画像透かしとは対照的に、テキスト透かし技術に焦点を当て、MARKMYWORDSを提案する。
品質、サイズ(透かしを検出するのに必要なトークンの数など)、タンパー抵抗の3つの主要な指標に注目します。
我々は、いくつかの先行研究で強調された基準である透かしの不明瞭さは、要求が強すぎると論じている。
論文 参考訳(メタデータ) (2023-12-01T01:22:46Z) - I Know You Did Not Write That! A Sampling Based Watermarking Method for
Identifying Machine Generated Text [0.0]
機械生成テキストを検出するための新しい透かし手法を提案する。
我々の方法は生成されたテキストにユニークなパターンを埋め込む。
本稿では,透かしがテキスト品質にどのように影響するかを示し,提案手法を最先端の透かし法と比較する。
論文 参考訳(メタデータ) (2023-11-29T20:04:57Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [88.50683534978407]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とする。
本稿では、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽造不可能な検証可能な透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。