論文の概要: A Watermark for Black-Box Language Models
- arxiv url: http://arxiv.org/abs/2410.02099v1
- Date: Wed, 2 Oct 2024 23:39:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:45:48.616517
- Title: A Watermark for Black-Box Language Models
- Title(参考訳): ブラックボックス言語モデルのための透かし
- Authors: Dara Bahri, John Wieting, Dana Alon, Donald Metzler,
- Abstract要約: LLMからシーケンスをサンプリングする機能のみを必要とする原則的な透かし方式を提案する。
性能保証を提供し、ホワイトボックスアクセスが利用可能である場合にどのように活用できるかを実証し、包括的実験によって既存のホワイトボックススキームよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 48.675403591806194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking has recently emerged as an effective strategy for detecting the outputs of large language models (LLMs). Most existing schemes require \emph{white-box} access to the model's next-token probability distribution, which is typically not accessible to downstream users of an LLM API. In this work, we propose a principled watermarking scheme that requires only the ability to sample sequences from the LLM (i.e. \emph{black-box} access), boasts a \emph{distortion-free} property, and can be chained or nested using multiple secret keys. We provide performance guarantees, demonstrate how it can be leveraged when white-box access is available, and show when it can outperform existing white-box schemes via comprehensive experiments.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の出力を検出する効果的な手法としてウォーターマーキングが登場している。
既存のほとんどのスキームでは、LLM APIの下流のユーザにはアクセスできない次世代の確率分布に 'emph{white-box} アクセスする必要がある。
本研究では, LLM からシーケンスをサンプリングする機能 (すなわち \emph{black-box} アクセス) のみを必要とする基本的透かし方式を提案する。
性能保証を提供し、ホワイトボックスアクセスが利用可能である場合にどのように活用できるかを実証し、包括的実験によって既存のホワイトボックススキームよりも優れていることを示す。
関連論文リスト
- Logits are All We Need to Adapt Closed Models [15.227768874282834]
多くの商用の大規模言語モデル(LLM)は、しばしばクローズドソースであり、開発者は特定のアプリケーションとコンテンツ生成の調整を迅速に行うことができる。
このようなアクセスが利用可能であれば、迅速なエンジニアリングを超えて、より強力な適応技術を可能にするだろう、と私たちは主張する。
ブラックボックスのLCMをアプリケーション固有のコンテンツ生成に向け,トークンレベルの確率再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T22:24:22Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection [15.902823469821431]
**Glimpse**は確率分布推定手法であり、部分的な観測から全分布を予測する。
Intropy, Rank, Log-Rank, Fast-DetectGPTといったホワイトボックスメソッドを最新のプロプライエタリなモデルに拡張します。
実験の結果、Glimpse with Fast-DetectGPT と GPT-3.5 は、5つの最新のソースモデルで平均 0.95 の AUROC を達成することが示された。
論文 参考訳(メタデータ) (2024-12-16T07:28:36Z) - Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models [2.740881223898167]
ゼロ階最適化を利用して,ホワイトボックスアクセスの必要性を回避できるZer0-Jackを提案する。
Zer0-Jackは様々なモデルで高い攻撃成功率を達成する。
GPT-4oのような商用MLLMをZer0-Jackが直接攻撃できることを示す。
論文 参考訳(メタデータ) (2024-11-12T05:24:02Z) - UTF:Undertrained Tokens as Fingerprints A Novel Approach to LLM Identification [23.164580168870682]
大型言語モデル(LLM)のフィンガープリントは、モデルのオーナシップの検証、信頼性の確保、誤用防止に不可欠である。
本稿では,未学習トークンを利用したLDMのフィンガープリント手法を提案する。
提案手法は,モデルの性能に最小限のオーバーヘッドと影響があり,対象モデルのオーナシップ識別にホワイトボックスアクセスを必要としない。
論文 参考訳(メタデータ) (2024-10-16T07:36:57Z) - On Unsupervised Prompt Learning for Classification with Black-box Language Models [71.60563181678323]
大規模言語モデル(LLM)は、テキスト形式学習問題において顕著な成功を収めた。
LLMは、熟練した人間のアノテータよりも品質の高いデータセットをラベル付けすることができる。
本稿では,ブラックボックス LLM を用いた分類のための教師なしのプロンプト学習を提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。
以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-28T08:41:30Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。