論文の概要: Improving Detection of Watermarked Language Models
- arxiv url: http://arxiv.org/abs/2508.13131v1
- Date: Mon, 18 Aug 2025 17:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.516515
- Title: Improving Detection of Watermarked Language Models
- Title(参考訳): 透かし付き言語モデルの検出の改善
- Authors: Dara Bahri, John Wieting,
- Abstract要約: 本研究では,透かし検出器と非透かし検出器を併用することにより,検出を改善できるかどうかを検討する。
本研究では,透かし検出器と非透かし検出器を組み合わせることで,検出を改善できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 31.772364827073808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking has recently emerged as an effective strategy for detecting the generations of large language models (LLMs). The strength of a watermark typically depends strongly on the entropy afforded by the language model and the set of input prompts. However, entropy can be quite limited in practice, especially for models that are post-trained, for example via instruction tuning or reinforcement learning from human feedback (RLHF), which makes detection based on watermarking alone challenging. In this work, we investigate whether detection can be improved by combining watermark detectors with non-watermark ones. We explore a number of hybrid schemes that combine the two, observing performance gains over either class of detector under a wide range of experimental conditions.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の世代検出に有効な手法として,ウォーターマーキングが登場している。
透かしの強さは典型的には言語モデルと入力プロンプトの集合によって得られるエントロピーに強く依存する。
しかしながら、エントロピーは実際には極めて限定的であり、例えば、インストラクションチューニングや人間からのフィードバックからの強化学習(RLHF)によって、ウォーターマーキングのみに基づく検出が困難になるようなモデルでは特にそうだ。
本研究では,透かし検出器と非透かし検出器を組み合わせることで,検出を改善できるかどうかを検討する。
この2つを組み合わせたハイブリッドなスキームを探索し、幅広い実験条件下で両種類の検出器の性能向上を観察する。
関連論文リスト
- Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。