論文の概要: Learning to Watermark: A Selective Watermarking Framework for Large Language Models via Multi-Objective Optimization
- arxiv url: http://arxiv.org/abs/2510.15976v1
- Date: Mon, 13 Oct 2025 01:07:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.739424
- Title: Learning to Watermark: A Selective Watermarking Framework for Large Language Models via Multi-Objective Optimization
- Title(参考訳): 透かしの学習:多目的最適化による大規模言語モデルのための選択型透かしフレームワーク
- Authors: Chenrui Wang, Junyi Shu, Billy Chiu, Yu Li, Saleh Alharbi, Min Zhang, Jing Li,
- Abstract要約: 既存の透かし技術は、しばしば透かし検出性と生成されたテキスト品質の間のトレードオフに直面している。
本稿では,新しい選択型透かしフレームワークであるLearning to Watermark (LTW)を紹介する。
- 参考スコア(独自算出の注目度): 17.15048594237333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of LLMs has raised concerns about their potential misuse, leading to various watermarking schemes that typically offer high detectability. However, existing watermarking techniques often face trade-off between watermark detectability and generated text quality. In this paper, we introduce Learning to Watermark (LTW), a novel selective watermarking framework that leverages multi-objective optimization to effectively balance these competing goals. LTW features a lightweight network that adaptively decides when to apply the watermark by analyzing sentence embeddings, token entropy, and current watermarking ratio. Training of the network involves two specifically constructed loss functions that guide the model toward Pareto-optimal solutions, thereby harmonizing watermark detectability and text quality. By integrating LTW with two baseline watermarking methods, our experimental evaluations demonstrate that LTW significantly enhances text quality without compromising detectability. Our selective watermarking approach offers a new perspective for designing watermarks for LLMs and a way to preserve high text quality for watermarks. The code is publicly available at: https://github.com/fattyray/learning-to-watermark
- Abstract(参考訳): LLMの急速な開発は、その潜在的な誤用に対する懸念を引き起こし、一般的に高い検出性を提供する様々な透かしスキームにつながった。
しかし、既存の透かし技術は、透かし検出性と生成されたテキスト品質との間のトレードオフに直面していることが多い。
本稿では,これらの競合する目標を効果的にバランスさせるために,多目的最適化を活用した新しい選択型透かしフレームワークであるLearning to Watermark (LTW)を紹介する。
LTWは、文の埋め込み、トークンエントロピー、および現在の透かし比を分析して、透かしをいつ適用するかを適応的に決定する軽量ネットワークを備えている。
ネットワークのトレーニングには、2つの特別に構築された損失関数が含まれており、この関数はモデルをパレート最適解へ導くことによって、透かし検出性とテキスト品質を調和させる。
LTWを2つのベースライン透かし法と組み合わせることで,LTWは検出性を損なうことなくテキスト品質を著しく向上することを示した。
我々の選択的な透かしアプローチは、LCMのための透かしを設計するための新しい視点と、透かしの高品質を維持する方法を提供する。
コードは、https://github.com/fattyray/learning-to-watermarkで公開されている。
関連論文リスト
- BiMarker: Enhancing Text Watermark Detection for Large Language Models with Bipolar Watermarks [13.741307434082033]
既存の透かし技術は、低い透かし強度と厳しい偽陽性要件に苦しむ。
ツールは生成されたテキストを正極と負極に分割し、追加の計算リソースを必要とせずに検出を強化する。
論文 参考訳(メタデータ) (2025-01-21T14:32:50Z) - Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。