論文の概要: A Watermark for Black-Box Language Models
- arxiv url: http://arxiv.org/abs/2410.02099v1
- Date: Wed, 2 Oct 2024 23:39:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:45:48.616517
- Title: A Watermark for Black-Box Language Models
- Title(参考訳): ブラックボックス言語モデルのための透かし
- Authors: Dara Bahri, John Wieting, Dana Alon, Donald Metzler,
- Abstract要約: LLMからシーケンスをサンプリングする機能のみを必要とする原則的な透かし方式を提案する。
性能保証を提供し、ホワイトボックスアクセスが利用可能である場合にどのように活用できるかを実証し、包括的実験によって既存のホワイトボックススキームよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 48.675403591806194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking has recently emerged as an effective strategy for detecting the outputs of large language models (LLMs). Most existing schemes require \emph{white-box} access to the model's next-token probability distribution, which is typically not accessible to downstream users of an LLM API. In this work, we propose a principled watermarking scheme that requires only the ability to sample sequences from the LLM (i.e. \emph{black-box} access), boasts a \emph{distortion-free} property, and can be chained or nested using multiple secret keys. We provide performance guarantees, demonstrate how it can be leveraged when white-box access is available, and show when it can outperform existing white-box schemes via comprehensive experiments.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の出力を検出する効果的な手法としてウォーターマーキングが登場している。
既存のほとんどのスキームでは、LLM APIの下流のユーザにはアクセスできない次世代の確率分布に 'emph{white-box} アクセスする必要がある。
本研究では, LLM からシーケンスをサンプリングする機能 (すなわち \emph{black-box} アクセス) のみを必要とする基本的透かし方式を提案する。
性能保証を提供し、ホワイトボックスアクセスが利用可能である場合にどのように活用できるかを実証し、包括的実験によって既存のホワイトボックススキームよりも優れていることを示す。
関連論文リスト
- Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models [2.740881223898167]
ゼロ階最適化を利用して,ホワイトボックスアクセスの必要性を回避できるZer0-Jackを提案する。
Zer0-Jackは様々なモデルで高い攻撃成功率を達成する。
GPT-4oのような商用MLLMをZer0-Jackが直接攻撃できることを示す。
論文 参考訳(メタデータ) (2024-11-12T05:24:02Z) - NSmark: Null Space Based Black-box Watermarking Defense Framework for Pre-trained Language Models [24.864736672581937]
LL-LFEA攻撃に抵抗できるタスク非依存のブラックボックス透かし方式を提案する。
NSmarkは, (i) 所有者のデジタル署名を用いた透かし生成, (i) 拡散スペクトル変調による高ロバスト性向上, (ii) 透かし容量を最大化しながらPLM性能を維持する出力マッピング抽出器による透かし埋め込み, (iii) 抽出率と空隙整合性により評価された透かし検証の3段階からなる。
論文 参考訳(メタデータ) (2024-10-16T14:45:27Z) - UTF:Undertrained Tokens as Fingerprints A Novel Approach to LLM Identification [23.164580168870682]
大型言語モデル(LLM)のフィンガープリントは、モデルのオーナシップの検証、信頼性の確保、誤用防止に不可欠である。
本稿では,未学習トークンを利用したLDMのフィンガープリント手法を提案する。
提案手法は,モデルの性能に最小限のオーバーヘッドと影響があり,対象モデルのオーナシップ識別にホワイトボックスアクセスを必要としない。
論文 参考訳(メタデータ) (2024-10-16T07:36:57Z) - On Unsupervised Prompt Learning for Classification with Black-box Language Models [71.60563181678323]
大規模言語モデル(LLM)は、テキスト形式学習問題において顕著な成功を収めた。
LLMは、熟練した人間のアノテータよりも品質の高いデータセットをラベル付けすることができる。
本稿では,ブラックボックス LLM を用いた分類のための教師なしのプロンプト学習を提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。
以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-28T08:41:30Z) - AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA [67.68750063537482]
拡散モデルは高品質な画像の生成において顕著な成功を収めた。
最近の研究は、SDモデルがポストホック法医学のための透かし付きコンテンツを出力できるようにすることを目的としている。
このシナリオにおける最初の実装としてtextttmethod を提案する。
論文 参考訳(メタデータ) (2024-05-18T01:25:47Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - A Semantic Invariant Robust Watermark for Large Language Models [27.522264953691746]
以前の透かしアルゴリズムは、攻撃の堅牢性とセキュリティの堅牢性の間のトレードオフに直面していた。
これは、トークンの透かしロジットが、先行するトークンの数によって決定されるためである。
攻撃の堅牢性とセキュリティの堅牢性の両方を提供するLLMのセマンティック不変な透かし手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T06:49:43Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。