論文の概要: Watermarking Language Models through Language Models
- arxiv url: http://arxiv.org/abs/2411.05091v1
- Date: Thu, 07 Nov 2024 19:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:53.907599
- Title: Watermarking Language Models through Language Models
- Title(参考訳): 言語モデルによる透かし言語モデル
- Authors: Xin Zhong, Agnibh Dasgupta, Abdullah Tanvir,
- Abstract要約: 本稿では,言語モデルが生成するプロンプトを通じて,言語モデルを透かし出す新しいフレームワークを提案する。
提案手法では,マルチモデル構成を用いて,透かし生成のためのPrompting言語モデル,生成されたコンテンツに透かしを埋め込むマーキング言語モデル,これらの透かしの存在を検証するための検出言語モデルを利用する。
- 参考スコア(独自算出の注目度): 1.249418440326334
- License:
- Abstract: This paper presents a novel framework for watermarking language models through prompts generated by language models. The proposed approach utilizes a multi-model setup, incorporating a Prompting language model to generate watermarking instructions, a Marking language model to embed watermarks within generated content, and a Detecting language model to verify the presence of these watermarks. Experiments are conducted using ChatGPT and Mistral as the Prompting and Marking language models, with detection accuracy evaluated using a pretrained classifier model. Results demonstrate that the proposed framework achieves high classification accuracy across various configurations, with 95% accuracy for ChatGPT, 88.79% for Mistral. These findings validate the and adaptability of the proposed watermarking strategy across different language model architectures. Hence the proposed framework holds promise for applications in content attribution, copyright protection, and model authentication.
- Abstract(参考訳): 本稿では,言語モデルが生成するプロンプトを通じて,言語モデルを透かし出す新しいフレームワークを提案する。
提案手法では,マルチモデル構成を用いて,透かし生成のためのPrompting言語モデル,生成されたコンテンツに透かしを埋め込むマーキング言語モデル,これらの透かしの存在を検証するための検出言語モデルを利用する。
ChatGPTとMistralをプロンプトおよびマーキング言語モデルとして使用し,事前学習した分類器モデルを用いて検出精度を評価する。
その結果,ChatGPTは95%,Mistralは88.79%,様々な構成で高い分類精度が得られた。
これらの結果は,異なる言語モデルアーキテクチャにまたがって提案された透かし戦略の適応性と妥当性を検証した。
したがって、提案フレームワークは、コンテンツ属性、著作権保護、モデル認証におけるアプリケーションに対する保証を持っている。
関連論文リスト
- On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Revisiting Topic-Guided Language Models [20.21486464604549]
4つのトピック誘導言語モデルと2つのベースラインについて検討し、4つのコーパス上で各モデルの保留予測性能を評価する。
これらの手法はいずれも標準のLSTM言語モデルのベースラインを上回りません。
論文 参考訳(メタデータ) (2023-12-04T20:33:24Z) - Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - Watermarking LLMs with Weight Quantization [61.63899115699713]
本稿では,大規模言語モデルの量子化過程に透かしを植え付ける新しい透かし戦略を提案する。
GPT-Neo や LLaMA など,オープンソースの大規模言語モデルに透かしを組み込むことに成功した。
論文 参考訳(メタデータ) (2023-10-17T13:06:59Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。