論文の概要: Beyond A Fixed Seal: Adaptive Stealing Watermark in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.10893v1
- Date: Mon, 13 Apr 2026 01:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.269207
- Title: Beyond A Fixed Seal: Adaptive Stealing Watermark in Large Language Models
- Title(参考訳): 固定シールを超えて:大規模言語モデルにおける適応型ステアリング透かし
- Authors: Shuhao Zhang, Yuli Chen, Jiale Han, Bo Cheng, Jiabao Ma,
- Abstract要約: ウォーターマーキングは、大規模言語モデル(LLM)サービスの重要なセーフガードを提供する。
既存の盗み透かしアルゴリズム(SWA)は、透かし付きテキストから透かし情報を導き出す。
設計の柔軟性を向上した新しいSWAであるAdaptive Stealing (AS)を提案する。
- 参考スコア(独自算出の注目度): 7.674428443615767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking provides a critical safeguard for large language model (LLM) services by facilitating the detection of LLM-generated text. Correspondingly, stealing watermark algorithms (SWAs) derive watermark information from watermarked texts generated by victim LLMs to craft highly targeted adversarial attacks, which compromise the reliability of watermarks. Existing SWAs rely on fixed strategies, overlooking the non-uniform distribution of stolen watermark information and the dynamic nature of real-world LLM generation processes. To address these limitations, we propose Adaptive Stealing (AS), a novel SWA featuring enhanced design flexibility through Position-Based Seal Construction and Adaptive Selection modules. AS operates by defining multiple attack perspectives derived from distinct activation states of contextually ordered tokens. During attack execution, AS dynamically selects the optimal perspective based on watermark compatibility, generation priority, and dynamic generation relevance. Our experiments demonstrate that AS significantly increases steal efficiency against target watermarks under identical experimental conditions. These findings highlight the need for more robust LLM watermarks to withstand potential attacks. We release our code to the community for future research\footnote{https://github.com/DrankXs/AdaptiveStealingWatermark}.
- Abstract(参考訳): ウォーターマーキングは、LLM生成テキストの検出を容易にすることで、大規模言語モデル(LLM)サービスの重要なセーフガードを提供する。
それに対応して、透かしアルゴリズム(SWA)を盗むことは、被害者のLSMが生成した透かしテキストから透かし情報を導き出し、高度に標的を絞った敵攻撃を仕掛け、透かしの信頼性を損なう。
既存のSWAは、盗まれた透かし情報の均一な分布と現実世界のLLM生成プロセスの動的性質を見越して、固定戦略に依存している。
これらの制約に対処するため、我々は、位置ベースシール構築および適応選択モジュールによる設計の柔軟性を向上した新しいSWAであるAdaptive Stealing (AS)を提案する。
ASは、コンテキスト順に順序付けられたトークンの異なるアクティベーション状態から派生した複数のアタックパースペクティブを定義することで機能する。
攻撃実行中、ASは透かしの互換性、生成優先度、動的生成関連性に基づいて最適な視点を動的に選択する。
実験により,ASは同一実験条件下での標的透かしに対する盗み効率を著しく向上することが示された。
これらの知見は、潜在的攻撃に耐えるためにより堅牢なLCM透かしの必要性を浮き彫りにした。
将来の研究のために、私たちのコードをコミュニティにリリースします。
関連論文リスト
- Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Defending LLM Watermarking Against Spoofing Attacks with Contrastive Representation Learning [34.76886510334969]
ピギーバック攻撃は、元々の透かしを保ったままのヘイトスピーチに変換する透かしテキストの意味を悪意的に変更することができる。
そこで本稿では,元来の意味を保ちつつ,与えられた目標テキストに透かしを埋め込む意味認識型透かしアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-09T04:38:17Z) - Watermark under Fire: A Robustness Evaluation of LLM Watermarking [40.87788133219292]
WaterParkは10の最先端の透かしと12の代表的な攻撃を統合する統合プラットフォームである。
我々は既存の透かしを総合的に評価し、様々な設計選択が攻撃の堅牢性に与える影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-20T16:09:22Z) - Robust and Minimally Invasive Watermarking for EaaS [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。
編集はモデル抽出攻撃に対して脆弱であり、著作権保護の必要性を強調している。
そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T04:34:49Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z) - No Free Lunch in LLM Watermarking: Trade-offs in Watermarking Design Choices [20.20770405297239]
LLM透かし方式における一般的な設計選択は、結果のシステムが驚くほど攻撃を受けやすいことを示す。
本稿では, LLM透かしのガイドラインと防御について述べる。
論文 参考訳(メタデータ) (2024-02-25T20:24:07Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。