論文の概要: Performance Trade-offs of Watermarking Large Language Models
- arxiv url: http://arxiv.org/abs/2311.09816v1
- Date: Thu, 16 Nov 2023 11:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:29:28.999373
- Title: Performance Trade-offs of Watermarking Large Language Models
- Title(参考訳): ウォーターマークによる大規模言語モデルの性能トレードオフ
- Authors: Anirudh Ajith, Sameer Singh, Danish Pruthi
- Abstract要約: 各種タスクにおいて,透かし付き大規模言語モデル (LLM) の性能を評価する。
ウォーターマーキングがkクラス分類問題として生じるタスクのパフォーマンスに無視できない影響があることが判明した。
要約や翻訳などの長文生成タスクでは、透かしによる性能の15~20%低下が見られる。
- 参考スコア(独自算出の注目度): 28.556397738117617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Amidst growing concerns of large language models (LLMs) being misused for
generating misinformation or completing homework assignments, watermarking has
emerged as an effective solution for distinguishing human-written and
LLM-generated text. A prominent watermarking strategy is to embed a signal into
generated text by upsampling a (pseudorandomly-chosen) subset of tokens at
every generation step. Although this signal is imperceptible to a human reader,
it is detectable through statistical testing. However, implanting such signals
alters the model's output distribution and can have unintended effects when
watermarked LLMs are used for downstream applications. In this work, we
evaluate the performance of watermarked LLMs on a diverse suite of tasks,
including text classification, textual entailment, reasoning, question
answering, translation, summarization, and language modeling. We find that
watermarking has negligible impact on the performance of tasks posed as k-class
classification problems in the average case. However, the accuracy can plummet
to that of a random classifier for some scenarios (that occur with
non-negligible probability). Tasks that are cast as multiple-choice questions
and short-form generation are surprisingly unaffected by watermarking. For
long-form generation tasks, including summarization and translation, we see a
drop of 15-20% in the performance due to watermarking. Our findings highlight
the trade-offs that users should be cognizant of when using watermarked models,
and point to cases where future research could improve existing trade-offs.
- Abstract(参考訳): 大きな言語モデル(LLM)が誤情報の生成や宿題の完了に誤用されているという懸念が高まっている中、透かしは人間の書き起こしとLLM生成テキストの識別に有効な解決策として現れてきた。
顕著な透かし戦略は、生成したテキストにトークンのサブセットを世代毎にアップサンプリングすることで信号を埋め込むことである。
この信号は人間の読み手には認識できないが、統計的検査によって検出できる。
しかし、そのような信号を埋め込むとモデルの出力分布が変化し、下流のアプリケーションに透かしのLLMを使用すると意図しない効果が生じる。
本研究では,テキスト分類,テキストの包含,推論,質問応答,翻訳,要約,言語モデリングなど,多種多様なタスクにおいて,透かし付きLLMの性能を評価する。
平均ケースにおけるkクラス分類問題として提案されるタスクのパフォーマンスには,透かしの影響が無視できることがわかった。
しかし、精度はいくつかのシナリオ(無視できない確率で起こる)のランダムな分類器のそれに急上昇することがある。
複数選択質問やショートフォーム生成などのタスクは、ウォーターマークによって驚くほど影響を受けない。
要約や翻訳を含む長い世代のタスクでは、ウォーターマーキングによるパフォーマンスが15~20%低下しています。
以上の結果から,透かしモデルを用いた場合,ユーザが認識すべきトレードオフに注目し,今後の研究が既存のトレードオフを改善する可能性を示す。
関連論文リスト
- Token-Specific Watermarking with Enhanced Detectability and Semantic
Coherence for Large Language Models [32.914584565739894]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストの意味的整合性の両方を達成するという課題に直面している。
本稿では,トークン固有の透かしロジットと分割比を生成するために,軽量ネットワークを利用した透かしのための新しい多目的最適化(MOO)手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Adaptive Text Watermark for Large Language Models [9.569222603139332]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - Cross-Attention Watermarking of Large Language Models [8.704964543257246]
言語モデルの言語透かしに対する新しいアプローチを示す。
情報は、読みやすさと本来の意味を保ちながら、出力テキストに不可避的に挿入される。
クロスアテンションメカニズムは、推論中にテキストに透かしを埋め込むのに使われる。
論文 参考訳(メタデータ) (2024-01-12T09:39:50Z) - On the Learnability of Watermarks for Language Models [88.45782629821468]
私たちは、デコードベースの透かしを利用する教師モデルのように振る舞うように学生モデルを訓練する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - On the Reliability of Watermarks for Large Language Models [50.01830399815094]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Who Wrote this Code? Watermarking for Code Generation [55.54239495289517]
エントロピー閾値(SWEET)を用いた新しい透かし手法Selective WatErmarkingを提案する。
SWEETは、生成中のトークン分布のエントロピーが高い位置にのみ「グリーン」トークンをプロモートすることで、生成されたコードの正確性を維持する。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - A Watermark for Large Language Models [60.66466446340074]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。