論文の概要: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.07138v1
- Date: Mon, 13 Nov 2023 08:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:14:14.598930
- Title: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language
Models
- Title(参考訳): WaterBench: 大規模言語モデルのための透かしの全体的評価を目指して
- Authors: Shangqing Tu, Yuliang Sun, Yushi Bai, Jifan Yu, Lei Hou, Juanzi Li
- Abstract要約: 本稿ではLLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介する。
私たちは3つの重要な要素を設計します。
textbftaskの選択には、入力と出力の長さを多様化して、9ドルのタスクをカバーする5つのカテゴリの分類を作成します。
テキスト評価基準では,透かし後の指示追従能力の低下を自動的に評価するために GPT4-Judge を用いる。
- 参考スコア(独自算出の注目度): 51.06949065544253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To mitigate the potential misuse of large language models (LLMs), recent
research has developed watermarking algorithms, which restrict the generation
process to leave an invisible trace for watermark detection. Due to the
two-stage nature of the task, most studies evaluate the generation and
detection separately, thereby presenting a challenge in unbiased, thorough, and
applicable evaluations. In this paper, we introduce WaterBench, the first
comprehensive benchmark for LLM watermarks, in which we design three crucial
factors: (1) For \textbf{benchmarking procedure}, to ensure an apples-to-apples
comparison, we first adjust each watermarking method's hyper-parameter to reach
the same watermarking strength, then jointly evaluate their generation and
detection performance. (2) For \textbf{task selection}, we diversify the input
and output length to form a five-category taxonomy, covering $9$ tasks. (3) For
\textbf{evaluation metric}, we adopt the GPT4-Judge for automatically
evaluating the decline of instruction-following abilities after watermarking.
We evaluate $4$ open-source watermarks on $2$ LLMs under $2$ watermarking
strengths and observe the common struggles for current methods on maintaining
the generation quality. The code and data are available at
\url{https://github.com/THU-KEG/WaterBench}.
- Abstract(参考訳): 大規模言語モデル(llms)の潜在的な誤用を軽減するために、近年の研究は、透かし検出のための見えない痕跡を残す生成プロセスを制限する透かしアルゴリズムを開発した。
タスクの2段階の性質のため、ほとんどの研究は生成と検出を別々に評価し、不偏で徹底的で適用可能な評価の課題を提示する。
そこで本研究では,(1)リンゴとリンゴの比較を確実にするために,まず各ウォーターマーキング法のハイパーパラメータを調整し,同一のウォーターマーキング強度に達するように調整し,その生成と検出性能を共同で評価する,llmウォーターマーキングに関する最初の総合ベンチマークであるwaterbenchを紹介する。
2) textbf{task selection} では,入力長と出力長を多様化して5つの分類群を形成し,9ドルのタスクをカバーしている。
(3) textbf{evaluation metric} では,透かし後の指示追従能力の低下を自動的に評価するために GPT4-Judge を用いる。
私たちは、オープンソースのウォーターマークを$$$ llmsで評価し、$$$ウォーターマークの強さの下で評価し、世代品質を維持するための現在の方法に対する一般的な闘争を観察します。
コードとデータは \url{https://github.com/thu-keg/waterbench} で入手できる。
関連論文リスト
- Token-Specific Watermarking with Enhanced Detectability and Semantic
Coherence for Large Language Models [32.914584565739894]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストの意味的整合性の両方を達成するという課題に直面している。
本稿では,トークン固有の透かしロジットと分割比を生成するために,軽量ネットワークを利用した透かしのための新しい多目的最適化(MOO)手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Proving membership in LLM pretraining data via data watermarks [23.12467573182206]
この研究は、ブラックボックスモデルアクセスのみで原則付き検出を可能にするために、データ透かしを使うことを提案する。
ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。
BLOOM-176Bのトレーニングデータから,少なくとも90回はハッシュを確実に検出できることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:49:27Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [88.50683534978407]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要とする。
本稿では、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う、偽造不可能な検証可能な透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Robust Distortion-free Watermarks for Language Models [93.461677251913]
本稿では,自動回帰言語モデルからテキストに透かしを植え付ける手法を提案する。
言語モデルから乱数列をサンプルにマッピングすることで、透かし付きテキストを生成する。
論文 参考訳(メタデータ) (2023-07-28T14:52:08Z) - Three Bricks to Consolidate Watermarks for Large Language Models [13.559357913735122]
本研究は,3つの理論的および経験的考察に基づいて,大規模言語モデルの透かしを統合する。
まず、低い偽陽性率でも有効である、堅牢な理論的保証を提供する新しい統計テストを導入する。
第二に、自然言語処理の分野における古典的なベンチマークを用いた透かしの有効性を比較し、実世界の応用性について考察する。
論文 参考訳(メタデータ) (2023-07-26T17:56:36Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z) - Who Wrote this Code? Watermarking for Code Generation [55.54239495289517]
エントロピー閾値(SWEET)を用いた新しい透かし手法Selective WatErmarkingを提案する。
SWEETは、生成中のトークン分布のエントロピーが高い位置にのみ「グリーン」トークンをプロモートすることで、生成されたコードの正確性を維持する。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - A Watermark for Large Language Models [60.66466446340074]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。