論文の概要: Token-Specific Watermarking with Enhanced Detectability and Semantic
Coherence for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.18059v2
- Date: Thu, 7 Mar 2024 05:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:48:25.101139
- Title: Token-Specific Watermarking with Enhanced Detectability and Semantic
Coherence for Large Language Models
- Title(参考訳): 大規模言語モデルの検出性とセマンティックコヒーレンスを向上したトークン特有な透かし
- Authors: Mingjia Huo, Sai Ashish Somayajula, Youwei Liang, Ruisi Zhang, Farinaz
Koushanfar, Pengtao Xie
- Abstract要約: 大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストの意味的整合性の両方を達成するという課題に直面している。
本稿では,トークン固有の透かしロジットと分割比を生成するために,軽量ネットワークを利用した透かしのための新しい多目的最適化(MOO)手法を提案する。
- 参考スコア(独自算出の注目度): 32.914584565739894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models generate high-quality responses with potential
misinformation, underscoring the need for regulation by distinguishing
AI-generated and human-written texts. Watermarking is pivotal in this context,
which involves embedding hidden markers in texts during the LLM inference
phase, which is imperceptible to humans. Current watermarking algorithms,
however, face the challenge of achieving both the detectability of inserted
watermarks and the semantic integrity of generated texts, where enhancing one
aspect often undermines the other. To overcome this, we introduce a novel
multi-objective optimization (MOO) approach for watermarking that utilizes
lightweight networks to generate token-specific watermarking logits and
splitting ratios. By leveraging MOO to optimize for both detection and semantic
objective functions, our method simultaneously achieves detectability and
semantic integrity. Experimental results show that our method outperforms
current watermarking techniques in enhancing the detectability of texts
generated by LLMs while maintaining their semantic coherence. Our code is
available at https://github.com/mignonjia/TS_watermark.
- Abstract(参考訳): 大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成し、AI生成テキストと人文テキストを区別することで、規制の必要性を強調する。
ウォーターマーキングは、LLM推論フェーズ中にテキストに隠れたマーカーを埋め込むという文脈において重要な役割を担っている。
しかし、現在の透かしアルゴリズムは、挿入された透かしの検出可能性と生成されたテキストのセマンティックな整合性の両方を達成するという課題に直面している。
そこで本研究では,軽量ネットワークを用いてトークン特異的なウォーターマーキングロジットと分割比率を生成する,新しい多目的最適化(moo)手法を提案する。
本手法は,MOOを利用して検出性と意味的目的関数の両方を最適化することにより,検出性と意味的整合性を同時に達成する。
実験結果から,本手法は,LLMが生成するテキストのセマンティックコヒーレンスを維持しつつ,検出可能性を高めるために,現在の透かし技術よりも優れていることがわかった。
私たちのコードはhttps://github.com/mignonjia/TS_watermarkで利用可能です。
関連論文リスト
- Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。
この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。
提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文 参考訳(メタデータ) (2024-10-09T04:49:03Z) - WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [65.11018806214388]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。
検出精度と計算効率のバランスが良くなる。
WaterSeekerのローカライゼーション機能は、解釈可能なAI検出システムの開発をサポートする。
論文 参考訳(メタデータ) (2024-09-08T14:45:47Z) - Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Topic-Based Watermarks for LLM-Generated Text [46.71493672772134]
本稿では,大規模言語モデル(LLM)のためのトピックベースの新しい透かしアルゴリズムを提案する。
トピック固有のトークンバイアスを使用することで、生成されたテキストにトピック依存の透かしを埋め込む。
提案手法は,テキストトピックを99.99%の信頼度で分類する。
論文 参考訳(メタデータ) (2024-04-02T17:49:40Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。