論文の概要: Functional Subspace Watermarking for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.18793v1
- Date: Thu, 19 Mar 2026 11:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.126328
- Title: Functional Subspace Watermarking for Large Language Models
- Title(参考訳): 大規模言語モデルのための機能的部分空間透かし
- Authors: Zikang Ding, Junhao Li, Suling Wu, Junchi Yao, Hongbo Liu, Lijie Hu,
- Abstract要約: 低次元機能バックボーンにオーナシップ信号を固定するフレームワークを提案する。
提案手法は,複数モデル攻撃時の検出精度と統計的検証性に優れる。
- 参考スコア(独自算出の注目度): 10.606696096012291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model watermarking utilizes internal representations to protect the ownership of large language models (LLMs). However, these features inevitably undergo complex distortions during realistic model modifications such as fine-tuning, quantization, or knowledge distillation, making reliable extraction extremely challenging. Despite extensive research on model-side watermarking, existing methods still lack sufficient robustness against parameter-level perturbations. To address this gap, we propose \texttt{\textbf{Functional Subspace Watermarking (FSW)}}, a framework that anchors ownership signals into a low-dimensional functional backbone. Specifically, we first solve a generalized eigenvalue problem to extract a stable functional subspace for watermark injection, while introducing an adaptive spectral truncation strategy to achieve an optimal balance between robustness and model utility. Furthermore, a vector consistency constraint is incorporated to ensure that watermark injection does not compromise the original semantic performance. Extensive experiments across various LLM architectures and datasets demonstrate that our method achieves superior detection accuracy and statistical verifiability under multiple model attacks, maintaining robustness that outperforms existing state-of-the-art (SOTA) methods.
- Abstract(参考訳): モデル透かしは、大きな言語モデル(LLM)の所有権を保護するために内部表現を利用する。
しかし、これらの特徴は、微調整、量子化、知識蒸留といった現実的なモデル修正の間、必然的に複雑な歪みを受けており、信頼性の高い抽出が極めて困難である。
モデル側透かしの広範な研究にもかかわらず、既存の手法はパラメータレベルの摂動に対して十分な頑健さを欠いている。
このギャップに対処するため、我々は低次元機能バックボーンにオーナシップ信号を固定するフレームワークである \texttt{\textbf{Functional Subspace Watermarking (FSW)}} を提案する。
具体的には、まず一般化された固有値問題を解き、透かし注入のための安定な機能部分空間を抽出し、ロバストネスとモデルユーティリティの最適バランスを達成するための適応スペクトルトランケーション戦略を導入する。
さらに、ウォーターマークインジェクションが元のセマンティックパフォーマンスを損なわないよう、ベクトル整合制約が組み込まれている。
種々のLLMアーキテクチャとデータセットにわたる大規模な実験により,本手法は複数のモデル攻撃による検出精度と統計的妥当性を向上し,既存のSOTA法より優れたロバスト性を維持できることを示した。
関連論文リスト
- Protecting Deep Neural Network Intellectual Property with Chaos-Based White-Box Watermarking [2.667401221288548]
ディープニューラルネットワーク(DNN)の急速な普及により、知的財産権(IP)保護とモデル誤用に関する懸念が高まっている。
DNNの内部パラメータにオーナシップ情報を埋め込む,効率的でレジリエントなホワイトボックス透かしフレームワークを提案する。
提案手法は,ホワイトボックス設定にモデルオーナシップを組み込んで検証するための,フレキシブルでスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-12-18T15:26:50Z) - SEAL: Subspace-Anchored Watermarks for LLM Ownership [12.022506016268112]
大規模言語モデルのためのサブスペース型透かしフレームワークSEALを提案する。
SEALはモデルの潜在表現空間に直接マルチビットシグネチャを埋め込んで、ホワイトボックスとブラックボックスの検証シナリオをサポートする。
我々は、SEALの優れた効率、忠実性、効率、堅牢性を示すために、複数のベンチマークデータセットと6つの著名なLCMに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-11-14T14:44:11Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - SALMAN: Stability Analysis of Language Models Through the Maps Between Graph-based Manifolds [11.373585987937913]
本研究では,内部パラメータの変更や複雑な摂動に頼らずにモデル安定性を評価する統一的局所(サンプルレベル)ロバストネスフレームワーク(SALMAN)を提案する。
提案手法の中心となるのがDMD(Distance Mapping Distortion)尺度である。
攻撃効率とロバストトレーニングの大幅な向上を示すことによって、我々は、トランスフォーマーベースのNLPシステムの信頼性を向上させるための実用的、モデルに依存しないツールとして、我々のフレームワークを位置づける。
論文 参考訳(メタデータ) (2025-08-23T02:50:55Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach [53.32564762183639]
大規模言語モデル(LLM)の透かしのための新しい統一的理論フレームワークを導入する。
本研究の目的は,最悪の偽陽性率(FPR)の制御とテキスト品質の歪みを維持しつつ,検出性能を最大化することである。
モデル非依存と効率性に代えて代理モデルを利用する歪みのない分散適応型透かしアルゴリズム(DAWA)を提案する。
論文 参考訳(メタデータ) (2024-10-03T18:28:10Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。
大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。
制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文 参考訳(メタデータ) (2024-04-28T14:45:53Z) - TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。
予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。
これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文 参考訳(メタデータ) (2024-03-09T08:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。