論文の概要: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.07138v1
- Date: Mon, 13 Nov 2023 08:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:14:14.598930
- Title: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language
Models
- Title(参考訳): WaterBench: 大規模言語モデルのための透かしの全体的評価を目指して
- Authors: Shangqing Tu, Yuliang Sun, Yushi Bai, Jifan Yu, Lei Hou, Juanzi Li
- Abstract要約: 本稿ではLLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介する。
私たちは3つの重要な要素を設計します。
textbftaskの選択には、入力と出力の長さを多様化して、9ドルのタスクをカバーする5つのカテゴリの分類を作成します。
テキスト評価基準では,透かし後の指示追従能力の低下を自動的に評価するために GPT4-Judge を用いる。
- 参考スコア(独自算出の注目度): 51.06949065544253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To mitigate the potential misuse of large language models (LLMs), recent
research has developed watermarking algorithms, which restrict the generation
process to leave an invisible trace for watermark detection. Due to the
two-stage nature of the task, most studies evaluate the generation and
detection separately, thereby presenting a challenge in unbiased, thorough, and
applicable evaluations. In this paper, we introduce WaterBench, the first
comprehensive benchmark for LLM watermarks, in which we design three crucial
factors: (1) For \textbf{benchmarking procedure}, to ensure an apples-to-apples
comparison, we first adjust each watermarking method's hyper-parameter to reach
the same watermarking strength, then jointly evaluate their generation and
detection performance. (2) For \textbf{task selection}, we diversify the input
and output length to form a five-category taxonomy, covering $9$ tasks. (3) For
\textbf{evaluation metric}, we adopt the GPT4-Judge for automatically
evaluating the decline of instruction-following abilities after watermarking.
We evaluate $4$ open-source watermarks on $2$ LLMs under $2$ watermarking
strengths and observe the common struggles for current methods on maintaining
the generation quality. The code and data are available at
\url{https://github.com/THU-KEG/WaterBench}.
- Abstract(参考訳): 大規模言語モデル(llms)の潜在的な誤用を軽減するために、近年の研究は、透かし検出のための見えない痕跡を残す生成プロセスを制限する透かしアルゴリズムを開発した。
タスクの2段階の性質のため、ほとんどの研究は生成と検出を別々に評価し、不偏で徹底的で適用可能な評価の課題を提示する。
そこで本研究では,(1)リンゴとリンゴの比較を確実にするために,まず各ウォーターマーキング法のハイパーパラメータを調整し,同一のウォーターマーキング強度に達するように調整し,その生成と検出性能を共同で評価する,llmウォーターマーキングに関する最初の総合ベンチマークであるwaterbenchを紹介する。
2) textbf{task selection} では,入力長と出力長を多様化して5つの分類群を形成し,9ドルのタスクをカバーしている。
(3) textbf{evaluation metric} では,透かし後の指示追従能力の低下を自動的に評価するために GPT4-Judge を用いる。
私たちは、オープンソースのウォーターマークを$$$ llmsで評価し、$$$ウォーターマークの強さの下で評価し、世代品質を維持するための現在の方法に対する一般的な闘争を観察します。
コードとデータは \url{https://github.com/thu-keg/waterbench} で入手できる。
関連論文リスト
- De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - A Watermark for Low-entropy and Unbiased Generation in Large Language Models [6.505831742654826]
本研究は,これらの問題に対処可能な透かしであるサンプリング・ワン・アクセプティング(STA-1)手法を提案する。
低エントロピーのシナリオでは、不偏の透かしは、透かし強度と不満足な出力のリスクとのトレードオフに直面している。
低エントロピーデータセットと高エントロピーデータセットの両方の実験結果は、STA-1が既存の非バイアスウォーターマークに匹敵するテキスト品質と透かし強度を達成することを示した。
論文 参考訳(メタデータ) (2024-05-23T14:17:29Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Three Bricks to Consolidate Watermarks for Large Language Models [13.559357913735122]
本研究は,3つの理論的および経験的考察に基づいて,大規模言語モデルの透かしを統合する。
まず、低い偽陽性率でも有効である、堅牢な理論的保証を提供する新しい統計テストを導入する。
第二に、自然言語処理の分野における古典的なベンチマークを用いた透かしの有効性を比較し、実世界の応用性について考察する。
論文 参考訳(メタデータ) (2023-07-26T17:56:36Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。