Fugu-MT 論文翻訳(概要): WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

論文の概要: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

arxiv url: http://arxiv.org/abs/2311.07138v1
Date: Mon, 13 Nov 2023 08:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 15:14:14.598930
Title: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models
Title（参考訳）: WaterBench: 大規模言語モデルのための透かしの全体的評価を目指して
Authors: Shangqing Tu, Yuliang Sun, Yushi Bai, Jifan Yu, Lei Hou, Juanzi Li
Abstract要約: 本稿ではLLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介する。私たちは3つの重要な要素を設計します。 textbftaskの選択には、入力と出力の長さを多様化して、9ドルのタスクをカバーする5つのカテゴリの分類を作成します。テキスト評価基準では,透かし後の指示追従能力の低下を自動的に評価するために GPT4-Judge を用いる。
参考スコア（独自算出の注目度）: 51.06949065544253
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To mitigate the potential misuse of large language models (LLMs), recent research has developed watermarking algorithms, which restrict the generation process to leave an invisible trace for watermark detection. Due to the two-stage nature of the task, most studies evaluate the generation and detection separately, thereby presenting a challenge in unbiased, thorough, and applicable evaluations. In this paper, we introduce WaterBench, the first comprehensive benchmark for LLM watermarks, in which we design three crucial factors: (1) For \textbf{benchmarking procedure}, to ensure an apples-to-apples comparison, we first adjust each watermarking method's hyper-parameter to reach the same watermarking strength, then jointly evaluate their generation and detection performance. (2) For \textbf{task selection}, we diversify the input and output length to form a five-category taxonomy, covering $9$ tasks. (3) For \textbf{evaluation metric}, we adopt the GPT4-Judge for automatically evaluating the decline of instruction-following abilities after watermarking. We evaluate $4$ open-source watermarks on $2$ LLMs under $2$ watermarking strengths and observe the common struggles for current methods on maintaining the generation quality. The code and data are available at \url{https://github.com/THU-KEG/WaterBench}.
Abstract（参考訳）: 大規模言語モデル(llms)の潜在的な誤用を軽減するために、近年の研究は、透かし検出のための見えない痕跡を残す生成プロセスを制限する透かしアルゴリズムを開発した。タスクの2段階の性質のため、ほとんどの研究は生成と検出を別々に評価し、不偏で徹底的で適用可能な評価の課題を提示する。そこで本研究では,(1)リンゴとリンゴの比較を確実にするために,まず各ウォーターマーキング法のハイパーパラメータを調整し,同一のウォーターマーキング強度に達するように調整し,その生成と検出性能を共同で評価する,llmウォーターマーキングに関する最初の総合ベンチマークであるwaterbenchを紹介する。 2) textbf{task selection} では,入力長と出力長を多様化して5つの分類群を形成し,9ドルのタスクをカバーしている。 (3) textbf{evaluation metric} では,透かし後の指示追従能力の低下を自動的に評価するために GPT4-Judge を用いる。私たちは、オープンソースのウォーターマークを$$$ llmsで評価し、$$$ウォーターマークの強さの下で評価し、世代品質を維持するための現在の方法に対する一般的な闘争を観察します。コードとデータは \url{https://github.com/thu-keg/waterbench} で入手できる。

関連論文リスト

HeavyWater and SimplexWater: Watermarking Low-Entropy Text Distributions [9.08291061147965]
大きな言語モデル(LLM)の透かしは、テキストの証明の認証、機械生成されたテキストの誤用の抑制、AIシステムの信頼の促進を可能にする。 LLMウォーターマーキングは、コーディングのような低エントロピー生成タスクでは困難である。我々のゴールは、透かし検出の可能性を最大化し、生成したテキストの歪みを最小限に抑えるために、ランダムな側情報をどのように効果的に利用するかを理解することである。
論文参考訳（メタデータ） (2025-06-06T13:52:34Z)
De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文参考訳（メタデータ） (2024-10-17T17:42:10Z)
Watermark Smoothing Attacks against Language Models [40.02225709485305]
スムーシング・アタック(Smoothing Attack)は,新しい透かし除去法である。我々は、13ドルBから30ドルBまで、オープンソースのモデルに対する攻撃を検証する。
論文参考訳（メタデータ） (2024-07-19T11:04:54Z)
A Watermark for Low-entropy and Unbiased Generation in Large Language Models [6.505831742654826]
本研究は,これらの問題に対処可能な透かしであるサンプリング・ワン・アクセプティング(STA-1)手法を提案する。低エントロピーのシナリオでは、不偏の透かしは、透かし強度と不満足な出力のリスクとのトレードオフに直面している。低エントロピーデータセットと高エントロピーデータセットの両方の実験結果は、STA-1が既存の非バイアスウォーターマークに匹敵するテキスト品質と透かし強度を達成することを示した。
論文参考訳（メタデータ） (2024-05-23T14:17:29Z)
New Evaluation Metrics Capture Quality Degradation due to LLM Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文参考訳（メタデータ） (2023-12-04T22:56:31Z)
Improving the Generation Quality of Watermarked Large Language Models via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。 We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文参考訳（メタデータ） (2023-11-16T08:36:00Z)
Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。出力確率分布に影響を与えることなく、透かしを統合することができる。ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文参考訳（メタデータ） (2023-09-22T12:46:38Z)
An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文参考訳（メタデータ） (2023-07-30T13:43:27Z)
Three Bricks to Consolidate Watermarks for Large Language Models [13.559357913735122]
本研究は,3つの理論的および経験的考察に基づいて,大規模言語モデルの透かしを統合する。まず、低い偽陽性率でも有効である、堅牢な理論的保証を提供する新しい統計テストを導入する。第二に、自然言語処理の分野における古典的なベンチマークを用いた透かしの有効性を比較し、実世界の応用性について考察する。
論文参考訳（メタデータ） (2023-07-26T17:56:36Z)
Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文参考訳（メタデータ） (2023-06-30T07:24:32Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。