論文の概要: LLM Fingerprinting via Semantically Conditioned Watermarks
- arxiv url: http://arxiv.org/abs/2505.16723v2
- Date: Thu, 09 Oct 2025 14:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.482163
- Title: LLM Fingerprinting via Semantically Conditioned Watermarks
- Title(参考訳): セマンティック・コンディショニングによるLLMフィンガープリント
- Authors: Thibaud Gloaguen, Robin Staab, Nikola Jovanović, Martin Vechev,
- Abstract要約: 意味的条件付き透かしによるLCMフィンガープリントを導入する。
弱めのない非定型鍵を各応答中に拡散した統計的透かし信号に置き換える。
私たちの指紋はステルスで、すべての一般的なデプロイメントシナリオに対して堅牢です。
- 参考スコア(独自算出の注目度): 9.515480957792542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most LLM fingerprinting methods teach the model to respond to a few fixed queries with predefined atypical responses (keys). This memorization often does not survive common deployment steps such as finetuning or quantization, and such keys can be easily detected and filtered from LLM responses, ultimately breaking the fingerprint. To overcome these limitations we introduce LLM fingerprinting via semantically conditioned watermarks, replacing fixed query sets with a broad semantic domain, and replacing brittle atypical keys with a statistical watermarking signal diffused throughout each response. After teaching the model to watermark its responses only to prompts from a predetermined domain e.g., French language, the model owner can use queries from that domain to reliably detect the fingerprint and verify ownership. As we confirm in our thorough experimental evaluation, our fingerprint is both stealthy and robust to all common deployment scenarios.
- Abstract(参考訳): ほとんどのLCMフィンガープリント法は、あらかじめ定義された非定型応答(キー)を持ついくつかの固定クエリに応答するようにモデルに教える。
この記憶は、微調整や量子化のような一般的な配置ステップを生き残らないことが多く、そのようなキーはLLM応答から簡単に検出・フィルタリングでき、最終的には指紋を壊す。
これらの制限を克服するために、セマンティック条件付き透かしによるLCMフィンガープリントを導入し、固定されたクエリセットを広いセマンティックドメインに置き換え、不安定な非定型キーを各応答中に拡散した統計的透かし信号に置き換える。
モデルに、所定のドメイン、例えばフランス語からのプロンプトにのみ応答をウォーターマークするように指示した後、モデル所有者は、そのドメインからのクエリを使用して、指紋を確実に検出し、オーナシップを検証できる。
徹底的な実験評価で確認したように、私たちの指紋はステルス性があり、すべての一般的なデプロイメントシナリオに対して堅牢です。
関連論文リスト
- Inhibitory Attacks on Backdoor-based Fingerprinting for Large Language Models [14.909356150499297]
本稿では,トークンフィルタ攻撃(TFA)と文検証攻撃(SVA)の2つの新しい指紋認証手法を提案する。
本手法は,アンサンブル性能を維持しつつ,指紋応答を効果的に抑制する手法である。
論文 参考訳(メタデータ) (2026-01-07T06:06:56Z) - iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification [22.052342142871144]
iSealは、モデル泥棒が疑わしいLLMをエンドツーエンドで制御する際に、信頼性の高い検証のために設計されたフィンガープリント手法である。
モデルと外部モジュールの両方にユニークな特徴を注入し、エラー訂正機構と類似性に基づく検証戦略によって強化される。
iSealは、12 LLMで10以上の攻撃に対して100%フィンガープリント成功率を達成する一方、ベースラインは未学習およびレスポンス操作で失敗する。
論文 参考訳(メタデータ) (2025-11-12T02:30:19Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Fingerprinting LLMs via Prompt Injection [16.907123772391213]
大規模言語モデル(LLM)は、後処理や量子化といった後処理によって、リリース後にしばしば修正される。
既存のプロファイランス検出手法には,(1)リリース前のベースモデルにシグナルを埋め込む,(2)手作りのプロンプトやランダムなプロンプトを用いたモデル間の出力を比較する,という2つの制限がある。
我々はLLMPrintを提案する。LLMPrintはLDM固有の脆弱性を利用して指紋を検知する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-09-29T19:54:36Z) - From Injection to Defense: Constructing Edit-Based Fingerprints for Large Language Models [28.393476667026523]
本稿では,ルールベースの多言語自然言語指紋(MNLF)を組み込んだ知識編集フレームワークRFEditを提案する。
RFEditはFingerprint Subspace-aware Fine-Tuning (FSFT)によって保護されている。
論文 参考訳(メタデータ) (2025-09-03T08:22:04Z) - Optimization-Free Universal Watermark Forgery with Regenerative Diffusion Models [50.73220224678009]
ウォーターマーキングは、人工知能モデルによって生成された合成画像の起源を検証するために使用できる。
近年の研究では, 対象画像から表層画像への透かしを, 対角的手法を用いてフォージできることが示されている。
本稿では,最適化フリーで普遍的な透かし偽造のリスクが大きいことを明らかにする。
我々のアプローチは攻撃範囲を大きく広げ、現在の透かし技術の安全性により大きな課題をもたらす。
論文 参考訳(メタデータ) (2025-06-06T12:08:02Z) - ImF: Implicit Fingerprint for Large Language Models [14.580290415247385]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Dynamic watermarks in images generated by diffusion models [46.1135899490656]
高忠実度テキストから画像への拡散モデルが視覚コンテンツ生成に革命をもたらしたが、その普及は重大な倫理的懸念を提起している。
本稿では,拡散モデルのための新しい多段階透かしフレームワークを提案する。
我々の研究は、モデルオーナシップの検証と誤用防止のためのスケーラブルなソリューションを提供することで、AI生成コンテンツセキュリティの分野を前進させます。
論文 参考訳(メタデータ) (2025-02-13T03:23:17Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - RoboSignature: Robust Signature and Watermarking on Network Attacks [0.5461938536945723]
本稿では,モデルが意図した透かしを埋め込む能力を阻害する新たな逆調整攻撃を提案する。
本研究は, 発生システムにおける潜在的な脆弱性を予知し, 防御することの重要性を強調した。
論文 参考訳(メタデータ) (2024-12-22T04:36:27Z) - A Survey of Fragile Model Watermarking [14.517951900805317]
モデルの脆弱な透かしは、改ざんを検出する強力なツールとして徐々に現れてきた。
本稿では, モデルフラクタブルウォーターマーキングの創業以来の課題について概説する。
論文 参考訳(メタデータ) (2024-06-07T10:23:25Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。
予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。
これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文 参考訳(メタデータ) (2024-03-09T08:54:52Z) - Generative Models are Self-Watermarked: Declaring Model Authentication
through Re-Generation [17.88043926057354]
データオーナシップの検証は、特に生成したデータの不正な再利用の場合、非常に困難な問題を引き起こします。
私たちの研究は、個々のサンプルからでもデータの再利用を検出することに集中しています。
本稿では, 再生成によるデータ所有を考慮に入れた説明可能な検証手法を提案し, さらに, 反復的データ再生による生成モデルにおけるこれらの指紋の増幅を行う。
論文 参考訳(メタデータ) (2024-02-23T10:48:21Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - Probabilistically Robust Watermarking of Neural Networks [4.332441337407564]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。
私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文 参考訳(メタデータ) (2024-01-16T10:32:13Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Latent Fingerprint Registration via Matching Densely Sampled Points [100.53031290339483]
既存の潜伏指紋登録手法は、主にミツバチ間の対応を確立することに基づいている。
本研究では,一対の指紋間の空間的変換を推定する,最小限の潜伏指紋登録手法を提案する。
提案手法は,特に挑戦的な条件下で,最先端の登録性能を実現する。
論文 参考訳(メタデータ) (2020-05-12T15:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。