論文の概要: An End-to-End Model For Logits Based Large Language Models Watermarking
- arxiv url: http://arxiv.org/abs/2505.02344v2
- Date: Thu, 22 May 2025 06:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.775826
- Title: An End-to-End Model For Logits Based Large Language Models Watermarking
- Title(参考訳): ログに基づく大規模言語モデルのエンド・ツー・エンドモデル
- Authors: Kahim Wong, Jicheng Zhou, Jiantao Zhou, Yain-Whar Si,
- Abstract要約: 既存の透かし法は、修正されていないコンテンツに効果があるが、テキストが修正されると、大幅な性能低下を被る。
LLM生成テキストの透かしのための新しいエンドツーエンドロジット手法を提案する。
提案手法は, パラフレージングで37~39%, 平均17.2%, 歪みのない手法より優れたロバスト性を実現する。
- 参考スコア(独自算出の注目度): 12.080237170688356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of LLMs has increased concerns over source tracing and copyright protection for AIGC, highlighting the need for advanced detection technologies. Passive detection methods usually face high false positives, while active watermarking techniques using logits or sampling manipulation offer more effective protection. Existing LLM watermarking methods, though effective on unaltered content, suffer significant performance drops when the text is modified and could introduce biases that degrade LLM performance in downstream tasks. These methods fail to achieve an optimal tradeoff between text quality and robustness, particularly due to the lack of end-to-end optimization of the encoder and decoder. In this paper, we introduce a novel end-to-end logits perturbation method for watermarking LLM-generated text. By jointly optimization, our approach achieves a better balance between quality and robustness. To address non-differentiable operations in the end-to-end training pipeline, we introduce an online prompting technique that leverages the on-the-fly LLM as a differentiable surrogate. Our method achieves superior robustness, outperforming distortion-free methods by 37-39% under paraphrasing and 17.2% on average, while maintaining text quality on par with these distortion-free methods in terms of text perplexity and downstream tasks. Our method can be easily generalized to different LLMs. Code is available at https://github.com/KAHIMWONG/E2E_LLM_WM.
- Abstract(参考訳): LLMの台頭は、AIGCのソーストレースと著作権保護に対する懸念を高め、高度な検出技術の必要性を強調している。
パッシブ検出法は通常高い偽陽性に直面するが、ロジットやサンプリング操作を用いたアクティブな透かし技術はより効果的な保護を提供する。
既存のLLM透かし法は、修正されていないコンテンツに対して有効であるが、テキストが修正されると大幅な性能低下を被り、下流タスクでLLM性能を低下させるバイアスを生じさせる可能性がある。
これらの手法は、特にエンコーダとデコーダのエンドツーエンド最適化が欠如しているため、テキスト品質と堅牢性の間の最適なトレードオフを達成できない。
本稿では,LLM生成テキストの透かしのための新しいエンドツーエンドロジット摂動法を提案する。
共同最適化により、我々の手法は品質と堅牢性の間のバランスを良くする。
エンド・ツー・エンドのトレーニング・パイプラインにおける非微分可能操作に対処するために、オンライン・プロンプト技術を導入し、オン・ザ・フライ LLM を差別化可能なサロゲートとして活用する。
提案手法は, テキストの難易度と下流タスクの両面において, 歪みのない手法と同等のテキスト品質を維持しつつ, パラフレーズで37~39%, 平均17.2%, 歪みのない手法より優れたロバスト性を実現する。
我々の手法は様々なLSMに容易に一般化できる。
コードはhttps://github.com/KAHIMWONG/E2E_LLM_WMで入手できる。
関連論文リスト
- Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。
我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。
また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文 参考訳(メタデータ) (2024-11-21T06:06:04Z) - Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。
この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。
提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文 参考訳(メタデータ) (2024-10-09T04:49:03Z) - Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach [35.319577498993354]
大規模言語モデル(LLM)の透かしのための新しい理論的枠組みを提案する。
本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。
本稿では,Gumbel-max の手法と並行してサロゲートモデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。