論文の概要: REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.12362v1
- Date: Wed, 18 Oct 2023 22:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 17:35:23.667050
- Title: REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative
Large Language Models
- Title(参考訳): REMARK-LLM: 大規模言語モデル生成のためのロバストで効率的な透かしフレームワーク
- Authors: Ruisi Zhang, Shehzeen Samarah Hussain, Paarth Neekhara, Farinaz
Koushanfar
- Abstract要約: 大規模言語モデル(LLM)のための新しい効率的で堅牢な透かしフレームワークREMARK-LLMを提案する。
ReMARK-LLMは、透かしのある内容における意味的整合性の保存を促進するために厳格に訓練されている。
透かしの検出と除去攻撃に対してより優れたレジリエンスを示す。
- 参考スコア(独自算出の注目度): 17.74476474369235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present REMARK-LLM, a novel efficient, and robust watermarking framework
designed for texts generated by large language models (LLMs). Synthesizing
human-like content using LLMs necessitates vast computational resources and
extensive datasets, encapsulating critical intellectual property (IP). However,
the generated content is prone to malicious exploitation, including spamming
and plagiarism. To address the challenges, REMARK-LLM proposes three new
components: (i) a learning-based message encoding module to infuse binary
signatures into LLM-generated texts; (ii) a reparameterization module to
transform the dense distributions from the message encoding to the sparse
distribution of the watermarked textual tokens; (iii) a decoding module
dedicated for signature extraction; Furthermore, we introduce an optimized beam
search algorithm to guarantee the coherence and consistency of the generated
content. REMARK-LLM is rigorously trained to encourage the preservation of
semantic integrity in watermarked content, while ensuring effective watermark
retrieval. Extensive evaluations on multiple unseen datasets highlight
REMARK-LLM proficiency and transferability in inserting 2 times more signature
bits into the same texts when compared to prior art, all while maintaining
semantic integrity. Furthermore, REMARK-LLM exhibits better resilience against
a spectrum of watermark detection and removal attacks.
- Abstract(参考訳): 本稿では,大規模な言語モデル(LLM)によって生成されたテキストを対象とした,新しい効率的で堅牢な透かしフレームワークREMARK-LLMを提案する。
llmsを用いたヒューマンライクなコンテンツの合成は、膨大な計算資源と膨大なデータセットを必要とし、重要な知的財産(ip)をカプセル化する。
しかし、生成されたコンテンツはスパムや盗作など悪用される傾向がある。
この課題に対処するため、REMARK-LLMは3つの新しいコンポーネントを提案する。
i) LLM生成テキストにバイナリ署名を注入する学習ベースのメッセージ符号化モジュール
二 密集分布を、メッセージエンコーディングから透かし付きテキストトークンの疎分布に変換するための再パラメータ化モジュール
3)署名抽出専用のデコードモジュール,さらに,生成されたコンテンツの一貫性と一貫性を保証するために最適化されたビーム探索アルゴリズムを導入する。
REMARK-LLMは、効果的な透かし検索を確保しつつ、透かし内容のセマンティックな整合性を維持するために厳格に訓練されている。
複数の未確認データセットに対する広範囲な評価は、REMARK-LLMの習熟度と転送性を強調し、意味的整合性を維持しながら、2倍の署名ビットを同じテキストに挿入する。
さらにREMARK-LLMは、透かしの検出と除去攻撃に対してより優れたレジリエンスを示す。
関連論文リスト
- SimMark: A Robust Sentence-Level Similarity-Based Watermarking Algorithm for Large Language Models [1.7188280334580197]
SimMarkは、大規模な言語モデルの出力を、モデルの内部ログへのアクセスを必要とせずにトレース可能にする、ポストホックな透かしアルゴリズムである。
実験結果から,SimMark は LLM 生成コンテンツのロバストな透かしのための新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2025-02-05T00:21:01Z) - DERMARK: A Dynamic, Efficient and Robust Multi-bit Watermark for Large Language Models [18.023143082876015]
動的,効率的,堅牢なマルチビット透かし方式であるDERMARKを提案する。
DERMARKはテキストを各ビットの埋め込みごとに異なる長さのセグメントに分割し、テキストの容量に適応的に適合する。
これは、透かし抽出損失を最小限に抑えて、テキスト編集に対して無視できるオーバーヘッドと堅牢な性能で実現される。
論文 参考訳(メタデータ) (2025-02-04T11:23:49Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - Topic-Based Watermarks for Large Language Models [46.71493672772134]
本稿では,Large Language Model (LLM) 出力のための軽量なトピック誘導型透かし方式を提案する。
本手法は,Google の SynthID-Text など,業界をリードするシステムに匹敵する難易度を実現する。
論文 参考訳(メタデータ) (2024-04-02T17:49:40Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。
我々はこの問題を透かしによって取り組めることを示した。
本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。