論文の概要: Robust LLM Watermarking with Minimal Semantic Distortion for IP Protection
- arxiv url: http://arxiv.org/abs/2605.23175v1
- Date: Fri, 22 May 2026 02:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.169287
- Title: Robust LLM Watermarking with Minimal Semantic Distortion for IP Protection
- Title(参考訳): IP保護のための最小セマンティック歪みを用いたロバストLCM透かし
- Authors: Kieu Dang, Phung Lai, NhatHai Phan, Yelong Shen, Ruoming Jin,
- Abstract要約: SAFESEALは、新しいキー条件付き透かしフレームワークで、モデルユーティリティに最小限の影響を伴って、強力な検出性を実現する。
SAFESEALは実用性,検出性,堅牢性において,BERTScore 0.983,エンティティ類似度0.963,検出率98.2%,テキスト品質とコンテンツの人為的評価において最大であり,レイテンシは最速のベースラインに匹敵する。
- 参考スコア(独自算出の注目度): 23.7834497390662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proprietary large language models (LLMs) face risks of intellectual property (IP) violation, as adversaries can replicate an LLM by collecting input-output pairs to train a surrogate model, causing financial setbacks. Watermarks offer a promising defense to verify ownership, but existing methods often struggle with semantic distortion, factual inconsistency, and adversarial attacks. In addition, key-conditioned watermarks for provider-specific detection, especially in cross-provider and multi-user scenarios, remain largely underexplored. To address these challenges, we propose SAFESEAL, a novel key-conditioned watermarking framework that achieves strong detectability with minimal impact on model utility, effectively balancing detectability, utility, and robustness. SAFESEAL preserves named entities while substituting linguistic terms with context-aware synonyms through a key-conditioned Tournament sampling mechanism, maintaining semantic fidelity and factual consistency. For detection, we introduce a key-conditioned contrastive detector that jointly encodes the text and key, enabling provider-specific and robust watermark verification. We derive theoretical bounds on the utility-detectability trade-off and significantly reduce latency through lightweight models, batching, and parallelism. Extensive experiments show that SAFESEAL outperforms baselines in utility, detectability, and robustness, achieving a BERTScore of 0.983, entity similarity of 0.963, a 98.2% detection rate, and the highest human ratings for text quality and content preservation, with latency comparable to the fastest baseline. To promote transparency and community-driven progress, we release the first public watermark leaderboard and an interactive demo.
- Abstract(参考訳): プロプライエタリな大規模言語モデル(LLM)は知的財産権侵害(IP)のリスクに直面する。
ウォーターマークは所有権を検証するための有望な防御を提供するが、既存の手法は意味論的歪み、事実的矛盾、敵の攻撃に苦しむことが多い。
さらに、プロバイダ固有の検出のためのキー条件付き透かし、特にクロスプロファイラやマルチユーザーシナリオでは、ほとんど探索されていない。
これらの課題に対処するため,SAFESEALを提案する。SAFESEALは,モデルユーティリティへの影響を最小限に抑え,検出性,実用性,堅牢性を効果的にバランスさせることで,強力な検出性を実現する新しいキー条件付き透かしフレームワークである。
SAFESEALは、意味的忠実さと事実整合性を維持しながら、キー条件付きトーナメントサンプリング機構を通じて、文脈対応の同義語と言語用語を置換しながら、名前付きエンティティを保存している。
検出にはキー条件付きコントラスト検出器を導入し,テキストとキーを共同で符号化し,プロバイダ固有の堅牢な透かし検証を可能にする。
実用性と検出可能性のトレードオフに関する理論的境界を導出し、軽量モデル、バッチ処理、並列処理による遅延を大幅に低減します。
大規模な実験により、SAFESEALは実用性、検出性、堅牢性においてベースラインを上回っ、BERTScore 0.983、エンティティ類似度0.963、98.2%検出率98.2%、テキスト品質とコンテンツの保存率が最も高く、レイテンシは最速のベースラインに匹敵する。
透明性とコミュニティ主導の進展を促進するため、最初の公開透かしリーダーボードとインタラクティブなデモをリリースする。
関連論文リスト
- PASA: A Principled Embedding-Space Watermarking Approach for LLM-Generated Text under Semantic-Invariant Attacks [3.815798234276803]
PASAは、原則付き、堅牢で、歪みのない透かしアルゴリズムである。
セマンティックレベルで透かしを埋め込んで検出する。
論文 参考訳(メタデータ) (2026-05-09T01:09:01Z) - ContractShield: Bridging Semantic-Structural Gaps via Hierarchical Cross-Modal Fusion for Multi-Label Vulnerability Detection in Obfuscated Smart Contracts [0.6936215735722616]
スマートコントラクトは、脆弱性検出を回避するために難読化技術を使用する敵によってますます標的にされている。
本研究では,3レベル融合による複数の相補的特徴を関連付ける,堅牢なマルチモーダルフレームワークであるContractShieldを提案する。
ContractShieldは、91パーセントのF1スコアを持つ5つの主要な脆弱性タイプを同時に検出する。
論文 参考訳(メタデータ) (2026-04-03T06:29:34Z) - A Visual Semantic Adaptive Watermark grounded by Prefix-Tuning for Large Vision-Language Model [48.79816664229285]
Visual Semantic Adaptive Watermark (VISA-Mark)は、視覚の忠実さを厳密に保ちながら検出可能な信号を埋め込む新しいフレームワークである。
提案手法では,動的ビジュアルエビデンス重みを抽出するために,軽量で効率的に訓練されたプレフィックスチューナーを用いる。
実験の結果、VISA-Markは視覚的一貫性が7.8%向上した従来の手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2026-01-12T07:55:13Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints [49.2373408329323]
大規模言語モデル(LLM)のための透かしレベル(SWM)に関する新しい理論フレームワークを提案する。
PMarkは単純だが強力なSWM手法であり、サンプリングチャネルを通して中央値の次文を動的に推定する。
実験結果から,PMarkはテキスト品質とパラフレージングの両方において,既存のSWMベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-09-25T12:08:31Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity [31.666430190864947]
我々はHermitian Symmetric Fourier Watermarking (SFW)と呼ばれる新しい埋め込み手法を提案する。
SFWはエルミート対称性を強制することによって周波数整合性を維持する。
我々は,収穫攻撃による意味的透かしの脆弱性を低減する中心認識型埋め込み戦略を導入する。
論文 参考訳(メタデータ) (2025-09-09T12:15:16Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。