論文の概要: SEAL: Subspace-Anchored Watermarks for LLM Ownership
- arxiv url: http://arxiv.org/abs/2511.11356v1
- Date: Fri, 14 Nov 2025 14:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.655942
- Title: SEAL: Subspace-Anchored Watermarks for LLM Ownership
- Title(参考訳): SEAL: LLM所有のためのサブスペース対応の透かし
- Authors: Yanbo Dai, Zongjie Li, Zhenlan Ji, Shuai Wang,
- Abstract要約: 大規模言語モデルのためのサブスペース型透かしフレームワークSEALを提案する。
SEALはモデルの潜在表現空間に直接マルチビットシグネチャを埋め込んで、ホワイトボックスとブラックボックスの検証シナリオをサポートする。
我々は、SEALの優れた効率、忠実性、効率、堅牢性を示すために、複数のベンチマークデータセットと6つの著名なLCMに関する包括的な実験を行う。
- 参考スコア(独自算出の注目度): 12.022506016268112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success across a wide range of natural language processing tasks, demonstrating human-level performance in text generation, reasoning, and question answering. However, training such models requires substantial computational resources, large curated datasets, and sophisticated alignment procedures. As a result, they constitute highly valuable intellectual property (IP) assets that warrant robust protection mechanisms. Existing IP protection approaches suffer from critical limitations. Model fingerprinting techniques can identify model architectures but fail to establish ownership of specific model instances. In contrast, traditional backdoor-based watermarking methods embed behavioral anomalies that can be easily removed through common post-processing operations such as fine-tuning or knowledge distillation. We propose SEAL, a subspace-anchored watermarking framework that embeds multi-bit signatures directly into the model's latent representational space, supporting both white-box and black-box verification scenarios. Our approach leverages model editing techniques to align the hidden representations of selected anchor samples with predefined orthogonal bit vectors. This alignment embeds the watermark while preserving the model's original factual predictions, rendering the watermark functionally harmless and stealthy. We conduct comprehensive experiments on multiple benchmark datasets and six prominent LLMs, comparing SEAL with 11 existing fingerprinting and watermarking methods to demonstrate its superior effectiveness, fidelity, efficiency, and robustness. Furthermore, we evaluate SEAL under potential knowledgeable attacks and show that it maintains strong verification performance even when adversaries possess knowledge of the watermarking mechanism and the embedded signatures.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成、推論、質問応答における人間レベルのパフォーマンスを実証し、幅広い自然言語処理タスクで顕著な成功を収めた。
しかし、そのようなモデルのトレーニングには、かなりの計算資源、大規模なキュレートされたデータセット、洗練されたアライメント手順が必要である。
結果として、堅牢な保護機構を保証できる非常に価値の高い知的財産権(IP)の資産を構成する。
既存のIP保護アプローチは、限界に悩まされている。
モデルフィンガープリント技術はモデルアーキテクチャを識別できるが、特定のモデルインスタンスのオーナシップを確立できない。
対照的に、従来のバックドアベースの透かし手法は、微調整や知識蒸留といった一般的な後処理操作によって容易に除去できる行動異常を埋め込む。
提案するSEALは,マルチビット署名を直接モデルの潜在表現空間に埋め込んで,ホワイトボックスとブラックボックスの検証シナリオをサポートするサブスペースアンコール型透かしフレームワークである。
提案手法はモデル編集手法を利用して,選択されたアンカーサンプルの隠れ表現を,予め定義された直交ビットベクトルに整列させる。
このアライメントは、モデルの本来の事実予測を維持しながら透かしを埋め込み、透かしを機能的に無害でステルス性にする。
我々は、複数のベンチマークデータセットと6つの著名なLCMの総合的な実験を行い、SEALと既存の11の指紋と透かし法を比較し、その優れた有効性、忠実性、効率、堅牢性を実証した。
さらに,SEALを潜在的に知的な攻撃下で評価し,透かし機構や組込みシグネチャの知識を敵が持っている場合でも,高い検証性能を維持していることを示す。
関連論文リスト
- SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Hot-Swap MarkBoard: An Efficient Black-box Watermarking Approach for Large-scale Model Distribution [14.60627694687767]
本稿では,効率的な透かし手法であるHot-Swap MarkBoardを提案する。
ユーザ固有の$n$-bitバイナリシグネチャを、独立して複数の透かしを埋め込むことでエンコードする。
この方法はブラックボックス検証をサポートし、様々なモデルアーキテクチャと互換性がある。
論文 参考訳(メタデータ) (2025-07-28T09:14:21Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Model Watermarking for Image Processing Networks [120.918532981871]
深層モデルの知的財産権を保護する方法は、非常に重要であるが、真に研究されていない問題である。
画像処理モデルを保護するための最初のモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-25T18:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。