論文の概要: DualGuard: Dual-stream Large Language Model Watermarking Defense against Paraphrase and Spoofing Attack
- arxiv url: http://arxiv.org/abs/2512.16182v1
- Date: Thu, 18 Dec 2025 05:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.919842
- Title: DualGuard: Dual-stream Large Language Model Watermarking Defense against Paraphrase and Spoofing Attack
- Title(参考訳): DualGuard:Dual-stream Large Language Model Watermarking Defense against Paraphrase and Spoofing Attack
- Authors: Hao Li, Yubing Ren, Yanan Cao, Yingjie Li, Fang Fang, Shi Wang, Li Guo,
- Abstract要約: クラウドベースのサービスは、大規模言語モデル(LLM)におけるモデル悪用のリスクを増大させている。
既存の透かしアルゴリズムは主にパラフレーズ攻撃に対する防御に焦点を当てている。
パラフレーズと偽造攻撃の両方を防御できる最初の透かしアルゴリズムであるDualGuardを提案する。
- 参考スコア(独自算出の注目度): 25.681637904431142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of cloud-based services, large language models (LLMs) have become increasingly accessible through various web platforms. However, this accessibility has also led to growing risks of model abuse. LLM watermarking has emerged as an effective approach to mitigate such misuse and protect intellectual property. Existing watermarking algorithms, however, primarily focus on defending against paraphrase attacks while overlooking piggyback spoofing attacks, which can inject harmful content, compromise watermark reliability, and undermine trust in attribution. To address this limitation, we propose DualGuard, the first watermarking algorithm capable of defending against both paraphrase and spoofing attacks. DualGuard employs the adaptive dual-stream watermarking mechanism, in which two complementary watermark signals are dynamically injected based on the semantic content. This design enables DualGuard not only to detect but also to trace spoofing attacks, thereby ensuring reliable and trustworthy watermark detection. Extensive experiments conducted across multiple datasets and language models demonstrate that DualGuard achieves excellent detectability, robustness, traceability, and text quality, effectively advancing the state of LLM watermarking for real-world applications.
- Abstract(参考訳): クラウドベースのサービスの急速な開発に伴い、大規模言語モデル(LLM)は、さまざまなWebプラットフォームを通じてアクセスしやすくなっている。
しかし、このアクセシビリティは、モデル虐待のリスクも高めている。
LLM透かしは、そのような誤用を軽減し、知的財産を保護する効果的なアプローチとして現れている。
しかし、既存の透かしアルゴリズムは、主に、有害な内容の注入や、透かしの信頼性の妥協、帰属への信頼の弱さといった、豚の巣穴攻撃を見下ろしながら、パラフレーズ攻撃に対する防御に焦点を当てている。
この制限に対処するために、パラフレーズと偽造攻撃の両方を防御できる最初の透かしアルゴリズムであるDualGuardを提案する。
DualGuardは、セマンティックな内容に基づいて2つの補完的な透かし信号を動的に注入する適応的な二重ストリーム透かし機構を採用している。
この設計により、DualGuardはスプーフ攻撃を検出するだけでなく、スプーフ攻撃を追跡できるため、信頼性と信頼性の高い透かし検出が可能である。
複数のデータセットや言語モデルにまたがる大規模な実験により、DualGuardは優れた検出性、堅牢性、トレーサビリティ、テキスト品質を実現し、現実のアプリケーションにおけるLLM透かしの状態を効果的に改善することを示した。
関連論文リスト
- SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models [52.877452505561706]
データセットのオーナシップ検証(DOV)を損なうよう特別に設計された最初の著作権回避攻撃を提案する。
CEAT2Iは, 試料検出, トリガー同定, 効率的な透かし除去の3段階からなる。
実験の結果,CEAT2I はモデル性能を保ちながら DOV 機構を効果的に回避できることがわかった。
論文 参考訳(メタデータ) (2025-05-05T17:51:55Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - DIP-Watermark: A Double Identity Protection Method Based on Robust Adversarial Watermark [13.007649270429493]
顔認識(FR)システムはプライバシーのリスクを引き起こす。
1つの対策は敵攻撃であり、不正な悪意のあるFRを欺くことである。
トレース可能な対角線透かしに基づく最初の二重識別保護方式を提案する。
論文 参考訳(メタデータ) (2024-04-23T02:50:38Z) - Dual Defense: Adversarial, Traceable, and Invisible Robust Watermarking
against Face Swapping [13.659927216999407]
顔交換に代表される深い偽造の悪意ある応用は、誤情報拡散や身元確認詐欺のようなセキュリティ上の脅威を導入している。
本稿では,デュアルディフェンス(Dual Defense)と呼ばれる,トレーサビリティと敵意を組み合わせた新たなアクティブディフェンス機構を提案する。
ターゲットの顔に単一の堅牢な透かしを埋め込んで、悪意のある顔交換の突然のケースに積極的に反応する。
論文 参考訳(メタデータ) (2023-10-25T10:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。