論文の概要: LLM Fingerprinting via Semantically Conditioned Watermarks
- arxiv url: http://arxiv.org/abs/2505.16723v2
- Date: Thu, 09 Oct 2025 14:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.482163
- Title: LLM Fingerprinting via Semantically Conditioned Watermarks
- Title(参考訳): セマンティック・コンディショニングによるLLMフィンガープリント
- Authors: Thibaud Gloaguen, Robin Staab, Nikola Jovanović, Martin Vechev,
- Abstract要約: 意味的条件付き透かしによるLCMフィンガープリントを導入する。
弱めのない非定型鍵を各応答中に拡散した統計的透かし信号に置き換える。
私たちの指紋はステルスで、すべての一般的なデプロイメントシナリオに対して堅牢です。
- 参考スコア(独自算出の注目度): 9.515480957792542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most LLM fingerprinting methods teach the model to respond to a few fixed queries with predefined atypical responses (keys). This memorization often does not survive common deployment steps such as finetuning or quantization, and such keys can be easily detected and filtered from LLM responses, ultimately breaking the fingerprint. To overcome these limitations we introduce LLM fingerprinting via semantically conditioned watermarks, replacing fixed query sets with a broad semantic domain, and replacing brittle atypical keys with a statistical watermarking signal diffused throughout each response. After teaching the model to watermark its responses only to prompts from a predetermined domain e.g., French language, the model owner can use queries from that domain to reliably detect the fingerprint and verify ownership. As we confirm in our thorough experimental evaluation, our fingerprint is both stealthy and robust to all common deployment scenarios.
- Abstract(参考訳): ほとんどのLCMフィンガープリント法は、あらかじめ定義された非定型応答(キー)を持ついくつかの固定クエリに応答するようにモデルに教える。
この記憶は、微調整や量子化のような一般的な配置ステップを生き残らないことが多く、そのようなキーはLLM応答から簡単に検出・フィルタリングでき、最終的には指紋を壊す。
これらの制限を克服するために、セマンティック条件付き透かしによるLCMフィンガープリントを導入し、固定されたクエリセットを広いセマンティックドメインに置き換え、不安定な非定型キーを各応答中に拡散した統計的透かし信号に置き換える。
モデルに、所定のドメイン、例えばフランス語からのプロンプトにのみ応答をウォーターマークするように指示した後、モデル所有者は、そのドメインからのクエリを使用して、指紋を確実に検出し、オーナシップを検証できる。
徹底的な実験評価で確認したように、私たちの指紋はステルス性があり、すべての一般的なデプロイメントシナリオに対して堅牢です。
関連論文リスト
- Optimization-Free Universal Watermark Forgery with Regenerative Diffusion Models [50.73220224678009]
ウォーターマーキングは、人工知能モデルによって生成された合成画像の起源を検証するために使用できる。
近年の研究では, 対象画像から表層画像への透かしを, 対角的手法を用いてフォージできることが示されている。
本稿では,最適化フリーで普遍的な透かし偽造のリスクが大きいことを明らかにする。
我々のアプローチは攻撃範囲を大きく広げ、現在の透かし技術の安全性により大きな課題をもたらす。
論文 参考訳(メタデータ) (2025-06-06T12:08:02Z) - Dynamic watermarks in images generated by diffusion models [46.1135899490656]
高忠実度テキストから画像への拡散モデルが視覚コンテンツ生成に革命をもたらしたが、その普及は重大な倫理的懸念を提起している。
本稿では,拡散モデルのための新しい多段階透かしフレームワークを提案する。
我々の研究は、モデルオーナシップの検証と誤用防止のためのスケーラブルなソリューションを提供することで、AI生成コンテンツセキュリティの分野を前進させます。
論文 参考訳(メタデータ) (2025-02-13T03:23:17Z) - RoboSignature: Robust Signature and Watermarking on Network Attacks [0.5461938536945723]
本稿では,モデルが意図した透かしを埋め込む能力を阻害する新たな逆調整攻撃を提案する。
本研究は, 発生システムにおける潜在的な脆弱性を予知し, 防御することの重要性を強調した。
論文 参考訳(メタデータ) (2024-12-22T04:36:27Z) - A Survey of Fragile Model Watermarking [14.517951900805317]
モデルの脆弱な透かしは、改ざんを検出する強力なツールとして徐々に現れてきた。
本稿では, モデルフラクタブルウォーターマーキングの創業以来の課題について概説する。
論文 参考訳(メタデータ) (2024-06-07T10:23:25Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。
予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。
これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文 参考訳(メタデータ) (2024-03-09T08:54:52Z) - Generative Models are Self-Watermarked: Declaring Model Authentication
through Re-Generation [17.88043926057354]
データオーナシップの検証は、特に生成したデータの不正な再利用の場合、非常に困難な問題を引き起こします。
私たちの研究は、個々のサンプルからでもデータの再利用を検出することに集中しています。
本稿では, 再生成によるデータ所有を考慮に入れた説明可能な検証手法を提案し, さらに, 反復的データ再生による生成モデルにおけるこれらの指紋の増幅を行う。
論文 参考訳(メタデータ) (2024-02-23T10:48:21Z) - Probabilistically Robust Watermarking of Neural Networks [4.332441337407564]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。
私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文 参考訳(メタデータ) (2024-01-16T10:32:13Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。