論文の概要: Robust LLM Fingerprinting via Domain-Specific Watermarks
- arxiv url: http://arxiv.org/abs/2505.16723v1
- Date: Thu, 22 May 2025 14:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.358282
- Title: Robust LLM Fingerprinting via Domain-Specific Watermarks
- Title(参考訳): ドメイン特有な透かしによるロバストLDMフィンガープリント
- Authors: Thibaud Gloaguen, Robin Staab, Nikola Jovanović, Martin Vechev,
- Abstract要約: 本稿では,モデルフィンガープリントのためのドメイン固有透かしの概念を紹介する。
特定の言語やトピックにのみ、透かしを埋め込むようにモデルをトレーニングします。
評価の結果,ドメイン固有の透かしにより,統計的確証が強いモデルフィンガープリントが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 1.9374282535132377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As open-source language models (OSMs) grow more capable and are widely shared and finetuned, ensuring model provenance, i.e., identifying the origin of a given model instance, has become an increasingly important issue. At the same time, existing backdoor-based model fingerprinting techniques often fall short of achieving key requirements of real-world model ownership detection. In this work, we build on the observation that while current open-source model watermarks fail to achieve reliable content traceability, they can be effectively adapted to address the challenge of model provenance. To this end, we introduce the concept of domain-specific watermarking for model fingerprinting. Rather than watermarking all generated content, we train the model to embed watermarks only within specified subdomains (e.g., particular languages or topics). This targeted approach ensures detection reliability, while improving watermark durability and quality under a range of real-world deployment settings. Our evaluations show that domain-specific watermarking enables model fingerprinting with strong statistical guarantees, controllable false positive rates, high detection power, and preserved generation quality. Moreover, we find that our fingerprints are inherently stealthy and naturally robust to real-world variability across deployment scenarios.
- Abstract(参考訳): オープンソース言語モデル(OSM)の能力が向上し、広く共有され、微調整されるにつれて、モデルの証明、すなわちモデルインスタンスの起源を特定することがますます重要になっている。
同時に、既存のバックドアベースのモデルフィンガープリント技術は、実世界のモデルオーナシップ検出の重要な要件を達成できないことが多い。
本研究では,現在のオープンソースのモデル透かしは信頼性の高いコンテンツトレーサビリティを達成できないが,モデル証明の課題に対処するために効果的に適応できることを示す。
そこで本研究では,モデルフィンガープリントのためのドメイン固有透かしの概念を紹介する。
すべての生成されたコンテンツを透かしではなく、特定のサブドメイン(例えば、特定の言語やトピック)にのみ透かしを埋め込むようにモデルを訓練します。
このターゲットのアプローチは、検出の信頼性を確保し、実際のデプロイメント設定の範囲で透かしの耐久性と品質を改善している。
評価の結果、ドメイン固有の透かしは、強力な統計的保証、制御可能な偽陽性率、高い検出力、保存された生成品質のモデルフィンガープリントを可能にすることが示された。
さらに、当社の指紋は本質的にステルス性があり、デプロイシナリオ間での実際の変動に対して自然に堅牢であることも分かりました。
関連論文リスト
- Dynamic watermarks in images generated by diffusion models [46.1135899490656]
高忠実度テキストから画像への拡散モデルが視覚コンテンツ生成に革命をもたらしたが、その普及は重大な倫理的懸念を提起している。
本稿では,拡散モデルのための新しい多段階透かしフレームワークを提案する。
我々の研究は、モデルオーナシップの検証と誤用防止のためのスケーラブルなソリューションを提供することで、AI生成コンテンツセキュリティの分野を前進させます。
論文 参考訳(メタデータ) (2025-02-13T03:23:17Z) - RoboSignature: Robust Signature and Watermarking on Network Attacks [0.5461938536945723]
本稿では,モデルが意図した透かしを埋め込む能力を阻害する新たな逆調整攻撃を提案する。
本研究は, 発生システムにおける潜在的な脆弱性を予知し, 防御することの重要性を強調した。
論文 参考訳(メタデータ) (2024-12-22T04:36:27Z) - A Survey of Fragile Model Watermarking [14.517951900805317]
モデルの脆弱な透かしは、改ざんを検出する強力なツールとして徐々に現れてきた。
本稿では, モデルフラクタブルウォーターマーキングの創業以来の課題について概説する。
論文 参考訳(メタデータ) (2024-06-07T10:23:25Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。