論文の概要: Can you Finetune your Binoculars? Embedding Text Watermarks into the Weights of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.06446v1
- Date: Tue, 08 Apr 2025 21:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:20.241987
- Title: Can you Finetune your Binoculars? Embedding Text Watermarks into the Weights of Large Language Models
- Title(参考訳): 両眼を微調整できる? 大きな言語モデルの重みにテキストの透かしを埋め込む
- Authors: Fay Elhassan, Niccolò Ajroldi, Antonio Orvieto, Jonas Geiping,
- Abstract要約: 人間のテキストからAIが生成したコンテンツの識別不可能は、透明性と説明責任の課題を提起する。
本稿では,テキスト生成モデルとして機能し,また検出器として機能する,モデルの低ランクアダプタのペアを微調整する戦略を提案する。
このように、透かし戦略はエンドツーエンドで完全に学習される。
- 参考スコア(独自算出の注目度): 33.051248579713736
- License:
- Abstract: The indistinguishability of AI-generated content from human text raises challenges in transparency and accountability. While several methods exist to watermark models behind APIs, embedding watermark strategies directly into model weights that are later reflected in the outputs of the model is challenging. In this study we propose a strategy to finetune a pair of low-rank adapters of a model, one serving as the text-generating model, and the other as the detector, so that a subtle watermark is embedded into the text generated by the first model and simultaneously optimized for detectability by the second. In this way, the watermarking strategy is fully learned end-to-end. This process imposes an optimization challenge, as balancing watermark robustness, naturalness, and task performance requires trade-offs. We discuss strategies on how to optimize this min-max objective and present results showing the effect of this modification to instruction finetuning.
- Abstract(参考訳): AIが生成するコンテンツが人間のテキストから区別できないことは、透明性と説明責任の課題を提起する。
APIの背後にあるモデルの透かしにはいくつかの方法が存在するが、後でモデルの出力に反映されるモデルの重みに直接透かし戦略を埋め込むことは困難である。
本研究では,1組の低ランクアダプタを1組のテキスト生成モデルとして,もう1台を検出器として微妙な透かしを第1のモデルで生成したテキストに埋め込んで,第2のモデルによる検出性を同時に最適化する手法を提案する。
このように、透かし戦略はエンドツーエンドで完全に学習される。
このプロセスは、透かしの堅牢性、自然性、タスクパフォーマンスのバランスをとるために、最適化の課題を課します。
本稿では、このmin-max目標を最適化する方法と、この修正が命令の微調整に与える影響を示す結果について論じる。
関連論文リスト
- GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - WAPITI: A Watermark for Finetuned Open-Source LLMs [42.1087852764299]
WAPITIはパラメータ統合によってベースモデルから微調整モデルに透かしを転送する新しい手法である。
提案手法は,透かしの注入に成功し,微調整モデルとの互換性が高いことを示す。
論文 参考訳(メタデータ) (2024-10-09T01:41:14Z) - Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach [35.319577498993354]
大規模言語モデル(LLM)の透かしのための新しい理論的枠組みを提案する。
本手法は,最悪のType-Iエラーとテキスト歪みの制御を維持しつつ,検出性能の最大化に重点を置いている。
本稿では,Gumbel-max の手法と並行してサロゲートモデルを用いた,効率的かつモデルに依存しない分布適応型透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - Trigger-Based Fragile Model Watermarking for Image Transformation Networks [2.38776871944507]
脆弱な透かしでは、微妙な透かしが、改ざん時に透かしが壊れるように、物体に埋め込まれる。
画像変換・生成ネットワークのための新規なトリガ型フラクタモデル透かしシステムを提案する。
私たちのアプローチは、堅牢な透かしとは別として、さまざまなデータセットや攻撃に対して、モデルのソースと整合性を効果的に検証します。
論文 参考訳(メタデータ) (2024-09-28T19:34:55Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - Cross-Attention Watermarking of Large Language Models [8.704964543257246]
言語モデルの言語透かしに対する新しいアプローチを示す。
情報は、読みやすさと本来の意味を保ちながら、出力テキストに不可避的に挿入される。
クロスアテンションメカニズムは、推論中にテキストに透かしを埋め込むのに使われる。
論文 参考訳(メタデータ) (2024-01-12T09:39:50Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。