論文の概要: Watermarking Makes Language Models Radioactive
- arxiv url: http://arxiv.org/abs/2402.14904v1
- Date: Thu, 22 Feb 2024 18:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:38:36.260315
- Title: Watermarking Makes Language Models Radioactive
- Title(参考訳): ウォーターマーキングは言語モデルを放射性にする
- Authors: Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy
Furon
- Abstract要約: 透かし付きトレーニングデータからトレースが検出されやすく、メンバーシップ推論よりもずっと信頼性が高いことが示される。
特に,透かしによる合成指導の訓練は高い信頼性で検出できることを示す。
- 参考スコア(独自算出の注目度): 25.33316874135086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the radioactivity of LLM-generated texts, i.e.
whether it is possible to detect that such input was used as training data.
Conventional methods like membership inference can carry out this detection
with some level of accuracy. We show that watermarked training data leaves
traces easier to detect and much more reliable than membership inference. We
link the contamination level to the watermark robustness, its proportion in the
training set, and the fine-tuning process. We notably demonstrate that training
on watermarked synthetic instructions can be detected with high confidence
(p-value < 1e-5) even when as little as 5% of training text is watermarked.
Thus, LLM watermarking, originally designed for detecting machine-generated
text, gives the ability to easily identify if the outputs of a watermarked LLM
were used to fine-tune another LLM.
- Abstract(参考訳): 本稿では,LLM生成テキストの放射能,すなわち,そのような入力がトレーニングデータとして使用されたことを検出できるかどうかについて検討する。
会員推測のような従来の方法は、ある程度の精度でこの検出を行うことができる。
透かし付きトレーニングデータからトレースが検出されやすく、メンバーシップ推論よりも信頼性が高いことを示す。
我々は,汚染レベルを透かしの堅牢性,トレーニングセットの比率,微調整プロセスに関連付ける。
特に, テキストの5%が透かしでなくても, 高い信頼度(p値<1e-5)で電子透かし合成命令の学習を検出できることを実証した。
従って、元々機械生成テキストを検出するために設計されたLLM透かしは、透かし付きLCMの出力が別のLCMの微調整に使われたかどうかを容易に識別する機能を提供する。
関連論文リスト
- Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。
我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。
また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文 参考訳(メタデータ) (2024-11-21T06:06:04Z) - Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。
この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。
提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文 参考訳(メタデータ) (2024-10-09T04:49:03Z) - A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。
枠組みに基づく透かしの最適検出規則を導出する。
論文 参考訳(メタデータ) (2024-04-01T17:03:41Z) - Learning to Watermark LLM-generated Text via Reinforcement Learning [16.61005372279407]
誤用追跡のためのLCM出力の透かしについて検討する。
出力に信号を埋め込むモデルレベルの透かしを設計する。
強化学習に基づく協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T03:43:39Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。