論文の概要: A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.07710v2
- Date: Tue, 25 Jun 2024 07:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 21:00:07.892318
- Title: A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models
- Title(参考訳): 大規模言語モデルのためのレジリエントでアクセシブルな分布保存型透かし
- Authors: Yihan Wu, Zhengmian Hu, Junfeng Guo, Hongyang Zhang, Heng Huang,
- Abstract要約: 本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
- 参考スコア(独自算出の注目度): 65.40460716619772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking techniques offer a promising way to identify machine-generated content via embedding covert information into the contents generated from language models. A challenge in the domain lies in preserving the distribution of original generated content after watermarking. Our research extends and improves upon existing watermarking framework, placing emphasis on the importance of a \textbf{Di}stribution-\textbf{P}reserving (DiP) watermark. Contrary to the current strategies, our proposed DiPmark simultaneously preserves the original token distribution during watermarking (distribution-preserving), is detectable without access to the language model API and prompts (accessible), and is provably robust to moderate changes of tokens (resilient). DiPmark operates by selecting a random set of tokens prior to the generation of a word, then modifying the token distribution through a distribution-preserving reweight function to enhance the probability of these selected tokens during the sampling process. Extensive empirical evaluation on various language models and tasks demonstrates our approach's distribution-preserving property, accessibility, and resilience, making it a effective solution for watermarking tasks that demand impeccable quality preservation.
- Abstract(参考訳): ウォーターマーキング技術は、言語モデルから生成されたコンテンツに隠蔽情報を埋め込むことで、機械生成コンテンツを識別する有望な方法を提供する。
ドメインにおける課題は、ウォーターマーキング後に生成されたオリジナルコンテンツの配布を保存することである。
本研究は既存の透かしフレームワークを拡張・改善し,<textbf{Di}stribution-\textbf{P}reserving (DiP) の透かしの重要性を強調した。
現在の戦略とは対照的に,提案したDiPmarkは透かし(ディストリビューション保存)中に元のトークン分布を同時に保存し,言語モデルAPIにアクセスせずに検出可能であり,アクセス可能であり,トークンの適度な変更(レジリエント)に対して確実に堅牢である。
DiPmarkは、単語を生成する前にランダムなトークンセットを選択し、次に分布保存リウェイト関数を通じてトークン分布を変更して、サンプリングプロセス中に選択したトークンの確率を高める。
各種言語モデルおよびタスクに対する広範囲な実験的評価は、我々のアプローチの分散保存性、アクセシビリティ、レジリエンスを実証し、不適切な品質維持を要求するタスクを透かし出す効果的なソリューションとなる。
関連論文リスト
- De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - Cross-Attention Watermarking of Large Language Models [8.704964543257246]
言語モデルの言語透かしに対する新しいアプローチを示す。
情報は、読みやすさと本来の意味を保ちながら、出力テキストに不可避的に挿入される。
クロスアテンションメカニズムは、推論中にテキストに透かしを埋め込むのに使われる。
論文 参考訳(メタデータ) (2024-01-12T09:39:50Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。