論文の概要: Watermarks for Embeddings-as-a-Service Large Language Models
- arxiv url: http://arxiv.org/abs/2512.03079v1
- Date: Fri, 28 Nov 2025 00:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:54.944411
- Title: Watermarks for Embeddings-as-a-Service Large Language Models
- Title(参考訳): エンベディング・アズ・ア・サービス大言語モデルのための透かし
- Authors: Anudeex Shetty,
- Abstract要約: この論文は、E透かしの調査による模倣攻撃に対する防御に焦点を当てている。
既存のE透かしは、模倣攻撃中に攻撃者がモデルをクローンすると、パラフレーズテキストで削除できる。
線形変換埋め込みを用いた新しい透かし手法を提案する。
- 参考スコア(独自算出の注目度): 4.230349220081445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional capabilities in natural language understanding and generation. Based on these LLMs, businesses have started to provide Embeddings-as-a-Service (EaaS), offering feature extraction capabilities (in the form of text embeddings) that benefit downstream natural language processing tasks. However, prior research has demonstrated that EaaS is vulnerable to imitation attacks, where an attacker clones the service's model in a black-box manner without access to the model's internal workings. In response, watermarks have been added to the text embeddings to protect the intellectual property of EaaS providers by allowing them to check for model ownership. This thesis focuses on defending against imitation attacks by investigating EaaS watermarks. To achieve this goal, we unveil novel attacks and propose and validate new watermarking techniques. Firstly, we show that existing EaaS watermarks can be removed through paraphrasing the input text when attackers clone the model during imitation attacks. Our study illustrates that paraphrasing can effectively bypass current state-of-the-art EaaS watermarks across various attack setups (including different paraphrasing techniques and models) and datasets in most instances. This demonstrates a new vulnerability in recent EaaS watermarking techniques. Subsequently, as a countermeasure, we propose a novel watermarking technique, WET (Watermarking EaaS with Linear Transformation), which employs linear transformation of the embeddings. Watermark verification is conducted by applying a reverse transformation and comparing the similarity between recovered and original embeddings. We demonstrate its robustness against paraphrasing attacks with near-perfect verifiability. We conduct detailed ablation studies to assess the significance of each component and hyperparameter in WET.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成において例外的な能力を示した。
これらのLLMに基づいて、企業は、下流の自然言語処理タスクに役立つ機能抽出機能(テキスト埋め込みの形式で)を提供するEmbddings-as-a-Service(EaaS)の提供を開始した。
しかしながら、以前の調査では、EaaSは模倣攻撃に弱いことが示されており、攻撃者はモデルの内部動作にアクセスすることなく、ブラックボックス形式でサービスのモデルをクローンする。
これに応えて、EaaSプロバイダの知的財産を保護するために、テキスト埋め込みに透かしが追加された。
この論文は、EaaSの透かしを調査して模倣攻撃に対する防御に焦点を当てている。
この目的を達成するため、我々は新しい攻撃を公表し、新しい透かし技術を提案し、検証する。
まず,攻撃者が模倣攻撃中にモデルをクローンすると,入力テキストを言い換えることで既存のEaaS透かしを除去できることを示す。
本研究は,現在最先端のEaaS透かしを,さまざまなアタック設定(異なるパラフレーズ技術やモデルを含む)やデータセットで効果的に回避できることを示す。
これは、最近のEaaSウォーターマーキング技術で新たな脆弱性を示している。
次に, 埋め込みの線形変換を用いた新しい透かし技術WET(Watermarking EaaS with Linear Transformation)を提案する。
透かし検証は、逆変換を適用し、復元された埋め込みと元の埋め込みの類似性を比較することによって行われる。
ほぼ完全な妥当性を有するパラフレーズ攻撃に対する頑健性を示す。
我々はWETにおける各成分とハイパーパラメータの意義を評価するための詳細なアブレーション研究を行っている。
関連論文リスト
- Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Your Semantic-Independent Watermark is Fragile: A Semantic Perturbation Attack against EaaS Watermark [5.2431999629987]
様々な研究が、Eサービスの著作権を保護するためのバックドアベースの透かし方式を提案している。
本稿では,従来の透かし方式が意味非依存の特徴を持つことを示すとともに,セマンティック摂動攻撃(SPA)を提案する。
我々の理論的および実験的分析は、この意味に依存しない性質が、現在の透かしスキームを適応攻撃に脆弱にし、セマンティック摂動テストを利用して透かし検証を回避していることを示している。
論文 参考訳(メタデータ) (2024-11-14T11:06:34Z) - WET: Overcoming Paraphrasing Vulnerabilities in Embeddings-as-a-Service with Linear Transformation Watermarks [28.992750031041744]
攻撃者がモデルをクローンすると,既存のE透かしをパラフレーズで除去できることを示す。
埋め込みを線形に変換する新しい透かし手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T18:59:56Z) - WARDEN: Multi-Directional Backdoor Watermarks for Embedding-as-a-Service Copyright Protection [7.660430606056949]
本稿では,複数の可能な透かし方向を組み込むことで,透かしの除去をより困難にするための新しいプロトコルを提案する。
我々の防衛アプローチであるWARDENは、特に透かしのステルスネスを高め、CSE攻撃に対する効果を実証的に示している。
論文 参考訳(メタデータ) (2024-03-03T10:39:27Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。