論文の概要: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models
- arxiv url: http://arxiv.org/abs/2311.07138v2
- Date: Mon, 1 Jul 2024 03:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 17:30:47.184924
- Title: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models
- Title(参考訳): WaterBench: 大規模言語モデルのための透かしの全体的評価を目指して
- Authors: Shangqing Tu, Yuliang Sun, Yushi Bai, Jifan Yu, Lei Hou, Juanzi Li,
- Abstract要約: WaterBenchは、大規模言語モデル(LLM)における透かしの最初の包括的なベンチマークである。
LLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介し、3つの重要な要素を設計する。
オープンソースの透かしを2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/
- 参考スコア(独自算出の注目度): 48.19623266082828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To mitigate the potential misuse of large language models (LLMs), recent research has developed watermarking algorithms, which restrict the generation process to leave an invisible trace for watermark detection. Due to the two-stage nature of the task, most studies evaluate the generation and detection separately, thereby presenting a challenge in unbiased, thorough, and applicable evaluations. In this paper, we introduce WaterBench, the first comprehensive benchmark for LLM watermarks, in which we design three crucial factors: (1) For benchmarking procedure, to ensure an apples-to-apples comparison, we first adjust each watermarking method's hyper-parameter to reach the same watermarking strength, then jointly evaluate their generation and detection performance. (2) For task selection, we diversify the input and output length to form a five-category taxonomy, covering $9$ tasks. (3) For evaluation metric, we adopt the GPT4-Judge for automatically evaluating the decline of instruction-following abilities after watermarking. We evaluate $4$ open-source watermarks on $2$ LLMs under $2$ watermarking strengths and observe the common struggles for current methods on maintaining the generation quality. The code and data are available at https://github.com/THU-KEG/WaterBench.
- Abstract(参考訳): 大規模言語モデル(LLM)の潜在的な誤用を軽減するため、近年の研究では、透かし検出のために見えない痕跡を残すために生成過程を制限する透かしアルゴリズムを開発した。
タスクの2段階の性質のため、ほとんどの研究は生成と検出を別々に評価し、不偏で徹底的で適用可能な評価の課題を提示する。
本稿では,LLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介し,その3つの重要な要素について概説する:(1)リンゴとアプライズの比較を確実にするために,まず,各透かし方式のハイパーパラメータを同じ透かし強度に達するように調整し,その生成と検出性能を共同で評価する。
2) タスク選択では,入力長と出力長を多様化して5カテゴリの分類となり,9ドルのタスクをカバーしている。
3)評価基準として,透かし後の指示追従能力の低下を自動的に評価する GPT4-Judge を用いる。
オープンソースの透かしを2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/4。
コードとデータはhttps://github.com/THU-KEG/WaterBench.comで公開されている。
関連論文リスト
- De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - A Watermark for Low-entropy and Unbiased Generation in Large Language Models [6.505831742654826]
本研究は,これらの問題に対処可能な透かしであるサンプリング・ワン・アクセプティング(STA-1)手法を提案する。
低エントロピーのシナリオでは、不偏の透かしは、透かし強度と不満足な出力のリスクとのトレードオフに直面している。
低エントロピーデータセットと高エントロピーデータセットの両方の実験結果は、STA-1が既存の非バイアスウォーターマークに匹敵するテキスト品質と透かし強度を達成することを示した。
論文 参考訳(メタデータ) (2024-05-23T14:17:29Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Three Bricks to Consolidate Watermarks for Large Language Models [13.559357913735122]
本研究は,3つの理論的および経験的考察に基づいて,大規模言語モデルの透かしを統合する。
まず、低い偽陽性率でも有効である、堅牢な理論的保証を提供する新しい統計テストを導入する。
第二に、自然言語処理の分野における古典的なベンチマークを用いた透かしの有効性を比較し、実世界の応用性について考察する。
論文 参考訳(メタデータ) (2023-07-26T17:56:36Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。