論文の概要: Cross-Attention Watermarking of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.06829v1
- Date: Fri, 12 Jan 2024 09:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 21:06:08.360877
- Title: Cross-Attention Watermarking of Large Language Models
- Title(参考訳): 大規模言語モデルのクロスアテンション透かし
- Authors: Folco Bertini Baldassini, Huy H. Nguyen, Ching-Chung Chang, Isao
Echizen
- Abstract要約: 言語モデルの言語透かしに対する新しいアプローチを示す。
情報は、読みやすさと本来の意味を保ちながら、出力テキストに不可避的に挿入される。
クロスアテンションメカニズムは、推論中にテキストに透かしを埋め込むのに使われる。
- 参考スコア(独自算出の注目度): 8.704964543257246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A new approach to linguistic watermarking of language models is presented in
which information is imperceptibly inserted into the output text while
preserving its readability and original meaning. A cross-attention mechanism is
used to embed watermarks in the text during inference. Two methods using
cross-attention are presented that minimize the effect of watermarking on the
performance of a pretrained model. Exploration of different training strategies
for optimizing the watermarking and of the challenges and implications of
applying this approach in real-world scenarios clarified the tradeoff between
watermark robustness and text quality. Watermark selection substantially
affects the generated output for high entropy sentences. This proactive
watermarking approach has potential application in future model development.
- Abstract(参考訳): 読みやすさと本来の意味を保ちつつ、出力テキストに情報を受動的に挿入する言語モデルの言語的透かしに対する新しいアプローチが提示された。
クロスアテンションメカニズムは、推論中にテキストに透かしを埋め込むのに使われる。
予め訓練したモデルの性能に及ぼす透かしの影響を最小限に抑える2つの方法を示す。
ウォーターマークの最適化のための異なるトレーニング戦略の探索と、実際のシナリオにおけるこのアプローチの適用の課題と意義は、ウォーターマークの堅牢性とテキスト品質のトレードオフを明確にした。
透かしの選択は高エントロピー文の出力に大きく影響する。
このプロアクティブな透かしアプローチは将来のモデル開発に潜在的に応用できる。
関連論文リスト
- De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - Watermark Smoothing Attacks against Language Models [40.02225709485305]
我々はスムースな攻撃を導入し、既存の透かし手法がテキストの小さな修正に対して堅牢でないことを示す。
我々の攻撃は幅広い透かし技術の基本的限界を明らかにしている。
論文 参考訳(メタデータ) (2024-07-19T11:04:54Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。