Fugu-MT 論文翻訳(概要): WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

論文の概要: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

arxiv url: http://arxiv.org/abs/2311.07138v2
Date: Mon, 1 Jul 2024 03:17:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 17:30:47.184924
Title: WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models
Title（参考訳）: WaterBench: 大規模言語モデルのための透かしの全体的評価を目指して
Authors: Shangqing Tu, Yuliang Sun, Yushi Bai, Jifan Yu, Lei Hou, Juanzi Li,
Abstract要約: WaterBenchは、大規模言語モデル(LLM)における透かしの最初の包括的なベンチマークである。 LLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介し、3つの重要な要素を設計する。オープンソースの透かしを2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/
参考スコア（独自算出の注目度）: 48.19623266082828
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To mitigate the potential misuse of large language models (LLMs), recent research has developed watermarking algorithms, which restrict the generation process to leave an invisible trace for watermark detection. Due to the two-stage nature of the task, most studies evaluate the generation and detection separately, thereby presenting a challenge in unbiased, thorough, and applicable evaluations. In this paper, we introduce WaterBench, the first comprehensive benchmark for LLM watermarks, in which we design three crucial factors: (1) For benchmarking procedure, to ensure an apples-to-apples comparison, we first adjust each watermarking method's hyper-parameter to reach the same watermarking strength, then jointly evaluate their generation and detection performance. (2) For task selection, we diversify the input and output length to form a five-category taxonomy, covering $9$ tasks. (3) For evaluation metric, we adopt the GPT4-Judge for automatically evaluating the decline of instruction-following abilities after watermarking. We evaluate $4$ open-source watermarks on $2$ LLMs under $2$ watermarking strengths and observe the common struggles for current methods on maintaining the generation quality. The code and data are available at https://github.com/THU-KEG/WaterBench.
Abstract（参考訳）: 大規模言語モデル(LLM)の潜在的な誤用を軽減するため、近年の研究では、透かし検出のために見えない痕跡を残すために生成過程を制限する透かしアルゴリズムを開発した。タスクの2段階の性質のため、ほとんどの研究は生成と検出を別々に評価し、不偏で徹底的で適用可能な評価の課題を提示する。本稿では,LLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介し,その3つの重要な要素について概説する:(1)リンゴとアプライズの比較を確実にするために,まず,各透かし方式のハイパーパラメータを同じ透かし強度に達するように調整し,その生成と検出性能を共同で評価する。 2) タスク選択では,入力長と出力長を多様化して5カテゴリの分類となり,9ドルのタスクをカバーしている。 3)評価基準として,透かし後の指示追従能力の低下を自動的に評価する GPT4-Judge を用いる。オープンソースの透かしを2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/4。コードとデータはhttps://github.com/THU-KEG/WaterBench.comで公開されている。

関連論文リスト

WaterSearch: A Quality-Aware Search-based Watermarking Framework for Large Language Models [17.137667672391725]
WaterSearchは文レベルの検索ベースの透かしフレームワークである。 WaterSearchは,1)分布の忠実度と2)透かし信号特性の2つの重要な側面を共同最適化することにより,テキスト品質を向上させる。本手法は,最先端のベースラインに対して平均51.01%の性能向上を実現する。
論文参考訳（メタデータ） (2025-11-30T11:11:21Z)
Learning to Watermark: A Selective Watermarking Framework for Large Language Models via Multi-Objective Optimization [17.15048594237333]
既存の透かし技術は、しばしば透かし検出性と生成されたテキスト品質の間のトレードオフに直面している。本稿では,新しい選択型透かしフレームワークであるLearning to Watermark (LTW)を紹介する。
論文参考訳（メタデータ） (2025-10-13T01:07:38Z)
HeavyWater and SimplexWater: Watermarking Low-Entropy Text Distributions [9.08291061147965]
大きな言語モデル(LLM)の透かしは、テキストの証明の認証、機械生成されたテキストの誤用の抑制、AIシステムの信頼の促進を可能にする。 LLMウォーターマーキングは、コーディングのような低エントロピー生成タスクでは困難である。我々のゴールは、透かし検出の可能性を最大化し、生成したテキストの歪みを最小限に抑えるために、ランダムな側情報をどのように効果的に利用するかを理解することである。
論文参考訳（メタデータ） (2025-06-06T13:52:34Z)
De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文参考訳（メタデータ） (2024-10-17T17:42:10Z)
Watermark Smoothing Attacks against Language Models [40.02225709485305]
スムーシング・アタック(Smoothing Attack)は,新しい透かし除去法である。我々は、13ドルBから30ドルBまで、オープンソースのモデルに対する攻撃を検証する。
論文参考訳（メタデータ） (2024-07-19T11:04:54Z)
A Watermark for Low-entropy and Unbiased Generation in Large Language Models [6.505831742654826]
本研究は,これらの問題に対処可能な透かしであるサンプリング・ワン・アクセプティング(STA-1)手法を提案する。低エントロピーのシナリオでは、不偏の透かしは、透かし強度と不満足な出力のリスクとのトレードオフに直面している。低エントロピーデータセットと高エントロピーデータセットの両方の実験結果は、STA-1が既存の非バイアスウォーターマークに匹敵するテキスト品質と透かし強度を達成することを示した。
論文参考訳（メタデータ） (2024-05-23T14:17:29Z)
New Evaluation Metrics Capture Quality Degradation due to LLM Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文参考訳（メタデータ） (2023-12-04T22:56:31Z)
Improving the Generation Quality of Watermarked Large Language Models via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。 We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文参考訳（メタデータ） (2023-11-16T08:36:00Z)
Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。出力確率分布に影響を与えることなく、透かしを統合することができる。ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文参考訳（メタデータ） (2023-09-22T12:46:38Z)
An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文参考訳（メタデータ） (2023-07-30T13:43:27Z)
Three Bricks to Consolidate Watermarks for Large Language Models [13.559357913735122]
本研究は,3つの理論的および経験的考察に基づいて,大規模言語モデルの透かしを統合する。まず、低い偽陽性率でも有効である、堅牢な理論的保証を提供する新しい統計テストを導入する。第二に、自然言語処理の分野における古典的なベンチマークを用いた透かしの有効性を比較し、実世界の応用性について考察する。
論文参考訳（メタデータ） (2023-07-26T17:56:36Z)
Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文参考訳（メタデータ） (2023-06-30T07:24:32Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。