論文の概要: Watermarking Makes Language Models Radioactive
- arxiv url: http://arxiv.org/abs/2402.14904v1
- Date: Thu, 22 Feb 2024 18:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:38:36.260315
- Title: Watermarking Makes Language Models Radioactive
- Title(参考訳): ウォーターマーキングは言語モデルを放射性にする
- Authors: Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy
Furon
- Abstract要約: 透かし付きトレーニングデータからトレースが検出されやすく、メンバーシップ推論よりもずっと信頼性が高いことが示される。
特に,透かしによる合成指導の訓練は高い信頼性で検出できることを示す。
- 参考スコア(独自算出の注目度): 25.33316874135086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the radioactivity of LLM-generated texts, i.e.
whether it is possible to detect that such input was used as training data.
Conventional methods like membership inference can carry out this detection
with some level of accuracy. We show that watermarked training data leaves
traces easier to detect and much more reliable than membership inference. We
link the contamination level to the watermark robustness, its proportion in the
training set, and the fine-tuning process. We notably demonstrate that training
on watermarked synthetic instructions can be detected with high confidence
(p-value < 1e-5) even when as little as 5% of training text is watermarked.
Thus, LLM watermarking, originally designed for detecting machine-generated
text, gives the ability to easily identify if the outputs of a watermarked LLM
were used to fine-tune another LLM.
- Abstract(参考訳): 本稿では,LLM生成テキストの放射能,すなわち,そのような入力がトレーニングデータとして使用されたことを検出できるかどうかについて検討する。
会員推測のような従来の方法は、ある程度の精度でこの検出を行うことができる。
透かし付きトレーニングデータからトレースが検出されやすく、メンバーシップ推論よりも信頼性が高いことを示す。
我々は,汚染レベルを透かしの堅牢性,トレーニングセットの比率,微調整プロセスに関連付ける。
特に, テキストの5%が透かしでなくても, 高い信頼度(p値<1e-5)で電子透かし合成命令の学習を検出できることを実証した。
従って、元々機械生成テキストを検出するために設計されたLLM透かしは、透かし付きLCMの出力が別のLCMの微調整に使われたかどうかを容易に識別する機能を提供する。
関連論文リスト
- Learning to Watermark LLM-generated Text via Reinforcement Learning [16.61005372279407]
誤用追跡のためのLCM出力の透かしについて検討する。
出力に信号を埋め込むモデルレベルの透かしを設計する。
強化学習に基づく協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T03:43:39Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - I Know You Did Not Write That! A Sampling Based Watermarking Method for
Identifying Machine Generated Text [0.0]
機械生成テキストを検出するための新しい透かし手法を提案する。
我々の方法は生成されたテキストにユニークなパターンを埋め込む。
本稿では,透かしがテキスト品質にどのように影響するかを示し,提案手法を最先端の透かし法と比較する。
論文 参考訳(メタデータ) (2023-11-29T20:04:57Z) - FunctionMarker: Watermarking Language Datasets via Knowledge Injection [65.33166992656024]
バックドアベースの透かしは、分類データセットの著作権を保護するための実行可能なアプローチである。
本稿では,知識注入による言語データセットの著作権保護手法であるFunctionMarkerを提案する。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [88.50683534978407]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とする。
本稿では、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽造不可能な検証可能な透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。