Fugu-MT 論文翻訳(概要): Robust LLM Fingerprinting via Domain-Specific Watermarks

論文の概要: Robust LLM Fingerprinting via Domain-Specific Watermarks

arxiv url: http://arxiv.org/abs/2505.16723v1
Date: Thu, 22 May 2025 14:32:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.358282
Title: Robust LLM Fingerprinting via Domain-Specific Watermarks
Title（参考訳）: ドメイン特有な透かしによるロバストLDMフィンガープリント
Authors: Thibaud Gloaguen, Robin Staab, Nikola Jovanović, Martin Vechev,
Abstract要約: 本稿では,モデルフィンガープリントのためのドメイン固有透かしの概念を紹介する。特定の言語やトピックにのみ、透かしを埋め込むようにモデルをトレーニングします。評価の結果,ドメイン固有の透かしにより,統計的確証が強いモデルフィンガープリントが可能であることが示唆された。
参考スコア（独自算出の注目度）: 1.9374282535132377
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As open-source language models (OSMs) grow more capable and are widely shared and finetuned, ensuring model provenance, i.e., identifying the origin of a given model instance, has become an increasingly important issue. At the same time, existing backdoor-based model fingerprinting techniques often fall short of achieving key requirements of real-world model ownership detection. In this work, we build on the observation that while current open-source model watermarks fail to achieve reliable content traceability, they can be effectively adapted to address the challenge of model provenance. To this end, we introduce the concept of domain-specific watermarking for model fingerprinting. Rather than watermarking all generated content, we train the model to embed watermarks only within specified subdomains (e.g., particular languages or topics). This targeted approach ensures detection reliability, while improving watermark durability and quality under a range of real-world deployment settings. Our evaluations show that domain-specific watermarking enables model fingerprinting with strong statistical guarantees, controllable false positive rates, high detection power, and preserved generation quality. Moreover, we find that our fingerprints are inherently stealthy and naturally robust to real-world variability across deployment scenarios.
Abstract（参考訳）: オープンソース言語モデル(OSM)の能力が向上し、広く共有され、微調整されるにつれて、モデルの証明、すなわちモデルインスタンスの起源を特定することがますます重要になっている。同時に、既存のバックドアベースのモデルフィンガープリント技術は、実世界のモデルオーナシップ検出の重要な要件を達成できないことが多い。本研究では,現在のオープンソースのモデル透かしは信頼性の高いコンテンツトレーサビリティを達成できないが,モデル証明の課題に対処するために効果的に適応できることを示す。そこで本研究では,モデルフィンガープリントのためのドメイン固有透かしの概念を紹介する。すべての生成されたコンテンツを透かしではなく、特定のサブドメイン(例えば、特定の言語やトピック)にのみ透かしを埋め込むようにモデルを訓練します。このターゲットのアプローチは、検出の信頼性を確保し、実際のデプロイメント設定の範囲で透かしの耐久性と品質を改善している。評価の結果、ドメイン固有の透かしは、強力な統計的保証、制御可能な偽陽性率、高い検出力、保存された生成品質のモデルフィンガープリントを可能にすることが示された。さらに、当社の指紋は本質的にステルス性があり、デプロイシナリオ間での実際の変動に対して自然に堅牢であることも分かりました。

関連論文リスト

Optimization-Free Universal Watermark Forgery with Regenerative Diffusion Models [50.73220224678009]
ウォーターマーキングは、人工知能モデルによって生成された合成画像の起源を検証するために使用できる。近年の研究では, 対象画像から表層画像への透かしを, 対角的手法を用いてフォージできることが示されている。本稿では,最適化フリーで普遍的な透かし偽造のリスクが大きいことを明らかにする。我々のアプローチは攻撃範囲を大きく広げ、現在の透かし技術の安全性により大きな課題をもたらす。
論文参考訳（メタデータ） (2025-06-06T12:08:02Z)
Dynamic watermarks in images generated by diffusion models [46.1135899490656]
高忠実度テキストから画像への拡散モデルが視覚コンテンツ生成に革命をもたらしたが、その普及は重大な倫理的懸念を提起している。本稿では,拡散モデルのための新しい多段階透かしフレームワークを提案する。我々の研究は、モデルオーナシップの検証と誤用防止のためのスケーラブルなソリューションを提供することで、AI生成コンテンツセキュリティの分野を前進させます。
論文参考訳（メタデータ） (2025-02-13T03:23:17Z)
RoboSignature: Robust Signature and Watermarking on Network Attacks [0.5461938536945723]
本稿では,モデルが意図した透かしを埋め込む能力を阻害する新たな逆調整攻撃を提案する。本研究は, 発生システムにおける潜在的な脆弱性を予知し, 防御することの重要性を強調した。
論文参考訳（メタデータ） (2024-12-22T04:36:27Z)
A Survey of Fragile Model Watermarking [14.517951900805317]
モデルの脆弱な透かしは、改ざんを検出する強力なツールとして徐々に現れてきた。本稿では, モデルフラクタブルウォーターマーキングの創業以来の課題について概説する。
論文参考訳（メタデータ） (2024-06-07T10:23:25Z)
ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。敵はモデル抽出攻撃を利用してモデル生成で符号化されたモデルインテリジェンスを盗むことができるウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-05-03T06:41:48Z)
TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文参考訳（メタデータ） (2024-03-09T08:54:52Z)
Generative Models are Self-Watermarked: Declaring Model Authentication through Re-Generation [17.88043926057354]
データオーナシップの検証は、特に生成したデータの不正な再利用の場合、非常に困難な問題を引き起こします。私たちの研究は、個々のサンプルからでもデータの再利用を検出することに集中しています。本稿では, 再生成によるデータ所有を考慮に入れた説明可能な検証手法を提案し, さらに, 反復的データ再生による生成モデルにおけるこれらの指紋の増幅を行う。
論文参考訳（メタデータ） (2024-02-23T10:48:21Z)
Probabilistically Robust Watermarking of Neural Networks [4.332441337407564]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文参考訳（メタデータ） (2024-01-16T10:32:13Z)
A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文参考訳（メタデータ） (2023-10-11T17:57:35Z)
Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文参考訳（メタデータ） (2023-09-09T12:46:08Z)
Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。安全で堅牢なバックドア型透かし注入法を提案する。我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文参考訳（メタデータ） (2023-09-04T19:58:35Z)
Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文参考訳（メタデータ） (2021-08-05T04:27:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。