Fugu-MT 論文翻訳(概要): A Watermark for Black-Box Language Models

論文の概要: A Watermark for Black-Box Language Models

arxiv url: http://arxiv.org/abs/2410.02099v1
Date: Wed, 2 Oct 2024 23:39:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 08:45:48.616517
Title: A Watermark for Black-Box Language Models
Title（参考訳）: ブラックボックス言語モデルのための透かし
Authors: Dara Bahri, John Wieting, Dana Alon, Donald Metzler,
Abstract要約: LLMからシーケンスをサンプリングする機能のみを必要とする原則的な透かし方式を提案する。性能保証を提供し、ホワイトボックスアクセスが利用可能である場合にどのように活用できるかを実証し、包括的実験によって既存のホワイトボックススキームよりも優れていることを示す。
参考スコア（独自算出の注目度）: 48.675403591806194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Watermarking has recently emerged as an effective strategy for detecting the outputs of large language models (LLMs). Most existing schemes require \emph{white-box} access to the model's next-token probability distribution, which is typically not accessible to downstream users of an LLM API. In this work, we propose a principled watermarking scheme that requires only the ability to sample sequences from the LLM (i.e. \emph{black-box} access), boasts a \emph{distortion-free} property, and can be chained or nested using multiple secret keys. We provide performance guarantees, demonstrate how it can be leveraged when white-box access is available, and show when it can outperform existing white-box schemes via comprehensive experiments.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)の出力を検出する効果的な手法としてウォーターマーキングが登場している。既存のほとんどのスキームでは、LLM APIの下流のユーザにはアクセスできない次世代の確率分布に 'emph{white-box} アクセスする必要がある。本研究では, LLM からシーケンスをサンプリングする機能 (すなわち \emph{black-box} アクセス) のみを必要とする基本的透かし方式を提案する。性能保証を提供し、ホワイトボックスアクセスが利用可能である場合にどのように活用できるかを実証し、包括的実験によって既存のホワイトボックススキームよりも優れていることを示す。

関連論文リスト

StealthInk: A Multi-bit and Stealthy Watermark for Large Language Models [4.76514657698929]
StealthInkは、大規模言語モデル(LLM)のためのステルスなマルチビット透かし方式である元のテキスト配布を保存し、証明データの埋め込みを可能にする。固定等誤り率で透かし検出に必要なトークン数に対する低い境界を導出する。
論文参考訳（メタデータ） (2025-06-05T18:37:38Z)
Learning on LLM Output Signatures for gray-box LLM Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。我々は,既存の手法の近似を理論的に保証するプロセスに対して,トランスフォーマーに基づくアプローチを開発する。提案手法は,グレーボックス設定における幻覚およびデータ汚染検出における優れた性能を実現する。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Logits are All We Need to Adapt Closed Models [15.227768874282834]
多くの商用の大規模言語モデル(LLM)は、しばしばクローズドソースであり、開発者は特定のアプリケーションとコンテンツ生成の調整を迅速に行うことができる。このようなアクセスが利用可能であれば、迅速なエンジニアリングを超えて、より強力な適応技術を可能にするだろう、と私たちは主張する。ブラックボックスのLCMをアプリケーション固有のコンテンツ生成に向け,トークンレベルの確率再重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-03T22:24:22Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection [15.902823469821431]
**Glimpse**は確率分布推定手法であり、部分的な観測から全分布を予測する。 Intropy, Rank, Log-Rank, Fast-DetectGPTといったホワイトボックスメソッドを最新のプロプライエタリなモデルに拡張します。実験の結果、Glimpse with Fast-DetectGPT と GPT-3.5 は、5つの最新のソースモデルで平均 0.95 の AUROC を達成することが示された。
論文参考訳（メタデータ） (2024-12-16T07:28:36Z)
Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models [2.740881223898167]
ゼロ階最適化を利用して,ホワイトボックスアクセスの必要性を回避できるZer0-Jackを提案する。 Zer0-Jackは様々なモデルで高い攻撃成功率を達成する。 GPT-4oのような商用MLLMをZer0-Jackが直接攻撃できることを示す。
論文参考訳（メタデータ） (2024-11-12T05:24:02Z)
NSmark: Null Space Based Black-box Watermarking Defense Framework for Pre-trained Language Models [24.864736672581937]
LL-LFEA攻撃に抵抗できるタスク非依存のブラックボックス透かし方式を提案する。 NSmarkは, (i) 所有者のデジタル署名を用いた透かし生成, (i) 拡散スペクトル変調による高ロバスト性向上, (ii) 透かし容量を最大化しながらPLM性能を維持する出力マッピング抽出器による透かし埋め込み, (iii) 抽出率と空隙整合性により評価された透かし検証の3段階からなる。
論文参考訳（メタデータ） (2024-10-16T14:45:27Z)
UTF:Undertrained Tokens as Fingerprints A Novel Approach to LLM Identification [23.164580168870682]
大型言語モデル(LLM)のフィンガープリントは、モデルのオーナシップの検証、信頼性の確保、誤用防止に不可欠である。本稿では,未学習トークンを利用したLDMのフィンガープリント手法を提案する。提案手法は,モデルの性能に最小限のオーバーヘッドと影響があり,対象モデルのオーナシップ識別にホワイトボックスアクセスを必要としない。
論文参考訳（メタデータ） (2024-10-16T07:36:57Z)
On Unsupervised Prompt Learning for Classification with Black-box Language Models [71.60563181678323]
大規模言語モデル(LLM)は、テキスト形式学習問題において顕著な成功を収めた。 LLMは、熟練した人間のアノテータよりも品質の高いデータセットをラベル付けすることができる。本稿では,ブラックボックス LLM を用いた分類のための教師なしのプロンプト学習を提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文参考訳（メタデータ） (2024-05-30T04:11:17Z)
Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文参考訳（メタデータ） (2024-05-28T08:41:30Z)
AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA [67.68750063537482]
拡散モデルは高品質な画像の生成において顕著な成功を収めた。最近の研究は、SDモデルがポストホック法医学のための透かし付きコンテンツを出力できるようにすることを目的としている。このシナリオにおける最初の実装としてtextttmethod を提案する。
論文参考訳（メタデータ） (2024-05-18T01:25:47Z)
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。 CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。 15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文参考訳（メタデータ） (2024-02-06T14:53:19Z)
A Semantic Invariant Robust Watermark for Large Language Models [27.522264953691746]
以前の透かしアルゴリズムは、攻撃の堅牢性とセキュリティの堅牢性の間のトレードオフに直面していた。これは、トークンの透かしロジットが、先行するトークンの数によって決定されるためである。攻撃の堅牢性とセキュリティの堅牢性の両方を提供するLLMのセマンティック不変な透かし手法を提案する。
論文参考訳（メタデータ） (2023-10-10T06:49:43Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)
An Investigation into Whitening Loss for Self-supervised Learning [62.157102463386394]
自己教師型学習(SSL)における望ましい目的は、機能の崩壊を避けることである。ホワイトニング損失分析のための情報指標を用いたフレームワークを提案する。分析に基づき、ランダムグループ分割(CW-RGP)を用いたチャネル白化を提案する。
論文参考訳（メタデータ） (2022-10-07T14:43:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。