論文の概要: CEFW: A Comprehensive Evaluation Framework for Watermark in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.20802v1
- Date: Mon, 24 Mar 2025 13:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:41.035709
- Title: CEFW: A Comprehensive Evaluation Framework for Watermark in Large Language Models
- Title(参考訳): CEFW:大規模言語モデルにおける透かしの総合評価フレームワーク
- Authors: Shuhao Zhang, Bo Cheng, Jiale Han, Yuli Chen, Zhixuan Wu, Changbao Li, Pingli Gu,
- Abstract要約: 本稿では,5つの重要次元にわたる透かし手法を包括的に評価する統合フレームワークを提案する。
これには、検出の容易さ、テキスト品質の忠実さ、埋め込みコストの最小化、敵攻撃に対する堅牢性、模倣や偽造を防ぐための非受容性などが含まれる。
本稿では,透かし情報の追加方法のバランスをとることで,堅牢性と非受容性を保証できるBa balanced Watermark (BW)を紹介した。
- 参考スコア(独自算出の注目度): 12.565502899825724
- License:
- Abstract: Text watermarking provides an effective solution for identifying synthetic text generated by large language models. However, existing techniques often focus on satisfying specific criteria while ignoring other key aspects, lacking a unified evaluation. To fill this gap, we propose the Comprehensive Evaluation Framework for Watermark (CEFW), a unified framework that comprehensively evaluates watermarking methods across five key dimensions: ease of detection, fidelity of text quality, minimal embedding cost, robustness to adversarial attacks, and imperceptibility to prevent imitation or forgery. By assessing watermarks according to all these key criteria, CEFW offers a thorough evaluation of their practicality and effectiveness. Moreover, we introduce a simple and effective watermarking method called Balanced Watermark (BW), which guarantees robustness and imperceptibility through balancing the way watermark information is added. Extensive experiments show that BW outperforms existing methods in overall performance across all evaluation dimensions. We release our code to the community for future research. https://github.com/DrankXs/BalancedWatermark.
- Abstract(参考訳): テキスト透かしは、大きな言語モデルによって生成された合成テキストを識別する効果的なソリューションを提供する。
しかし、既存の技術は特定の基準を満たすことに集中し、他の重要な側面を無視し、統一された評価を欠いている。
このギャップを埋めるため,本フレームワークは,検出の容易さ,テキスト品質の忠実さ,埋め込みコストの最小化,敵攻撃に対する堅牢性,模倣や偽造の防止など,5つの重要な側面にわたる透かし手法を包括的に評価する統合的なフレームワークである,透かし総合評価フレームワーク(CEFW)を提案する。
これらの主要な基準に従って透かしを評価することで、CEFWはその実用性と有効性について徹底的に評価する。
さらに,バランスド透かし (BW) と呼ばれる簡易かつ効果的な透かし手法を導入する。
大規模な実験により、BWはすべての評価次元で既存の手法よりも性能が優れていることが示された。
私たちは将来の研究のためにコードをコミュニティにリリースします。
https://github.com/DrankXs/BalancedWatermark
関連論文リスト
- Let Watermarks Speak: A Robust and Unforgeable Watermark for Language Models [0.0]
検出不能で頑健な単一ビット透かし方式を提案する。
最上級のゼロビット透かし方式に匹敵する堅牢性を持つ。
論文 参考訳(メタデータ) (2024-12-27T11:58:05Z) - De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。
ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。
本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文 参考訳(メタデータ) (2024-07-04T17:56:04Z) - Watermarking Language Models with Error Correcting Codes [39.77377710480125]
本稿では,誤り訂正符号を用いて統計的信号を符号化する透かしフレームワークを提案する。
提案手法は,ロバスト二元符号 (RBC) 透かしと呼ばれ,元の確率分布に比較して歪みは生じない。
私たちの経験的発見は、私たちの透かしは速く、強力で、堅牢であり、最先端のものと好意的に比較していることを示唆しています。
論文 参考訳(メタデータ) (2024-06-12T05:13:09Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - RAW: A Robust and Agile Plug-and-Play Watermark Framework for AI-Generated Images with Provable Guarantees [33.61946642460661]
本稿ではRAWと呼ばれる堅牢でアジャイルな透かし検出フレームワークを紹介する。
我々は、透かしの存在を検出するために、透かしと共同で訓練された分類器を用いる。
このフレームワークは,透かし画像の誤分類に対する偽陽性率に関する証明可能な保証を提供する。
論文 参考訳(メタデータ) (2024-01-23T22:00:49Z) - WAVES: Benchmarking the Robustness of Image Watermarks [67.955140223443]
WAVES(Watermark Analysis Via Enhanced Stress-testing)は、画像透かしの堅牢性を評価するためのベンチマークである。
我々は,検出タスクと識別タスクを統合し,多様なストレステストからなる標準化された評価プロトコルを確立する。
我々はWAVESを,ロバストな透かしの将来の開発のためのツールキットとして想定する。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - New Evaluation Metrics Capture Quality Degradation due to LLM
Watermarking [28.53032132891346]
大規模言語モデル(LLM)のための透かしアルゴリズム評価のための2つの新しい使いやすさ手法を提案する。
種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることがわかった。
以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。
論文 参考訳(メタデータ) (2023-12-04T22:56:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - ClearMark: Intuitive and Robust Model Watermarking via Transposed Model
Training [50.77001916246691]
本稿では,人間の直感的な評価を目的とした最初のDNN透かし手法であるClearMarkを紹介する。
ClearMarkは目に見える透かしを埋め込んで、厳格な値閾値なしで人間の意思決定を可能にする。
8,544ビットの透かし容量は、現存する最強の作品に匹敵する。
論文 参考訳(メタデータ) (2023-10-25T08:16:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。