論文の概要: Watermarking Language Models through Language Models
- arxiv url: http://arxiv.org/abs/2411.05091v2
- Date: Fri, 20 Jun 2025 16:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:50.992648
- Title: Watermarking Language Models through Language Models
- Title(参考訳): 言語モデルによる透かし言語モデル
- Authors: Agnibh Dasgupta, Abdullah Tanvir, Xin Zhong,
- Abstract要約: 入力レベルで完全に動作するプロンプト誘導型透かしフレームワークを導入し、モデルパラメータへのアクセスやロジットの復号は不要である。
GPT-4o, Mistral, LLaMA3, DeepSeek など 25 種類の LM と Prompting の組み合わせについて検討した。
実験の結果, 透かし信号はアーキテクチャ全体にわたって一般化し, 微調整, モデル蒸留, 即時攻撃下では頑健であることがわかった。
- 参考スコア(独自算出の注目度): 1.249418440326334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking the outputs of large language models (LLMs) is critical for provenance tracing, content regulation, and model accountability. Existing approaches often rely on access to model internals or are constrained by static rules and token-level perturbations. Moreover, the idea of steering generative behavior via prompt-based instruction control remains largely underexplored. We introduce a prompt-guided watermarking framework that operates entirely at the input level and requires no access to model parameters or decoding logits. The framework comprises three cooperating components: a Prompting LM that synthesizes watermarking instructions from user prompts, a Marking LM that generates watermarked outputs conditioned on these instructions, and a Detecting LM trained to classify whether a response carries an embedded watermark. This modular design enables dynamic watermarking that adapts to individual prompts while remaining compatible with diverse LLM architectures, including both proprietary and open-weight models. We evaluate the framework over 25 combinations of Prompting and Marking LMs, such as GPT-4o, Mistral, LLaMA3, and DeepSeek. Experimental results show that watermark signals generalize across architectures and remain robust under fine-tuning, model distillation, and prompt-based adversarial attacks, demonstrating the effectiveness and robustness of the proposed approach.
- Abstract(参考訳): 大規模言語モデル(LLM)のアウトプットをウォーターマークすることは、証明トレース、コンテンツ規制、モデル説明責任にとって重要である。
既存のアプローチは、しばしばモデル内部へのアクセスに依存するか、静的ルールとトークンレベルの摂動によって制約される。
さらに、プロンプトベースの命令制御による生成行動の操縦という考え方は、いまだに未熟なままである。
本稿では,入力レベルで完全に動作し,モデルパラメータへのアクセスやロジットの復号化を必要としない,プロンプト誘導型透かしフレームワークを提案する。
本発明のフレームワークは、ユーザプロンプトから透かし命令を合成するPrompting LMと、これらの命令で条件付けられた透かし出力を生成するマーキング LMと、応答が埋め込み透かしを運ぶかどうかを分類する訓練された検出 LMと、からなる。
このモジュール設計により、個別のプロンプトに適応する動的な透かしが可能となり、プロプライエタリモデルとオープンウェイトモデルの両方を含む様々なLLMアーキテクチャとの互換性が保たれる。
GPT-4o, Mistral, LLaMA3, DeepSeek など 25 種類の LM と Prompting の組み合わせについて検討した。
実験の結果, 透かし信号はアーキテクチャ全体にわたって一般化され, 微調整, モデル蒸留, 即時攻撃下では頑健であり, 提案手法の有効性とロバスト性を実証した。
関連論文リスト
- Improved Unbiased Watermark for Large Language Models [59.00698153097887]
本稿では,非バイアスのマルチチャネル型透かしであるMCmarkを紹介する。
MCmarkは言語モデルの本来の分布を保存する。
既存の非バイアスの透かしよりも検出性と堅牢性を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-16T21:02:36Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Revisiting Topic-Guided Language Models [20.21486464604549]
4つのトピック誘導言語モデルと2つのベースラインについて検討し、4つのコーパス上で各モデルの保留予測性能を評価する。
これらの手法はいずれも標準のLSTM言語モデルのベースラインを上回りません。
論文 参考訳(メタデータ) (2023-12-04T20:33:24Z) - Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - Watermarking LLMs with Weight Quantization [61.63899115699713]
本稿では,大規模言語モデルの量子化過程に透かしを植え付ける新しい透かし戦略を提案する。
GPT-Neo や LLaMA など,オープンソースの大規模言語モデルに透かしを組み込むことに成功した。
論文 参考訳(メタデータ) (2023-10-17T13:06:59Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。