論文の概要: On Protecting Agentic Systems' Intellectual Property via Watermarking
- arxiv url: http://arxiv.org/abs/2602.08401v1
- Date: Mon, 09 Feb 2026 09:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.138693
- Title: On Protecting Agentic Systems' Intellectual Property via Watermarking
- Title(参考訳): ウォーターマーキングによるエージェントシステムの知的特性の保護について
- Authors: Liwen Wang, Zongjie Li, Yuchong Xie, Shuai Wang, Dongdong She, Wei Wang, Juergen Rahmel,
- Abstract要約: AgentWMはエージェントモデル用に設計された最初の透かしフレームワークである。
AgentWMは、機能的に同一のツール実行パスの分布を微妙にバイアスすることで、アクションシーケンスのセマンティックな等価性を利用して、透かしを注入する。
我々は,エージェントIPを適応的敵に対して効果的に保護できることを確認した。
- 参考スコア(独自算出の注目度): 17.334130453604313
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The evolution of Large Language Models (LLMs) into agentic systems that perform autonomous reasoning and tool use has created significant intellectual property (IP) value. We demonstrate that these systems are highly vulnerable to imitation attacks, where adversaries steal proprietary capabilities by training imitation models on victim outputs. Crucially, existing LLM watermarking techniques fail in this domain because real-world agentic systems often operate as grey boxes, concealing the internal reasoning traces required for verification. This paper presents AGENTWM, the first watermarking framework designed specifically for agentic models. AGENTWM exploits the semantic equivalence of action sequences, injecting watermarks by subtly biasing the distribution of functionally identical tool execution paths. This mechanism allows AGENTWM to embed verifiable signals directly into the visible action trajectory while remaining indistinguishable to users. We develop an automated pipeline to generate robust watermark schemes and a rigorous statistical hypothesis testing procedure for verification. Extensive evaluations across three complex domains demonstrate that AGENTWM achieves high detection accuracy with negligible impact on agent performance. Our results confirm that AGENTWM effectively protects agentic IP against adaptive adversaries, who cannot remove the watermarks without severely degrading the stolen model's utility.
- Abstract(参考訳): 大規模言語モデル(LLM)から自律的推論とツール使用を行うエージェントシステムへの進化は、重要な知的財産権(IP)の価値を生み出した。
これらのシステムは擬似攻撃に対して非常に脆弱であり、敵は被害者の出力に対して擬似モデルを訓練することによって独自の能力を盗む。
重要なことに、既存のLLM透かし技術はこの領域では失敗し、現実のエージェントシステムはグレーボックスとして動作し、検証に必要な内部の推論トレースを隠蔽する。
本稿では,エージェントモデルに特化して設計された最初の透かしフレームワークである AgentWM について述べる。
AgentWMは、機能的に同一のツール実行パスの分布を微妙にバイアスすることで、アクションシーケンスのセマンティックな等価性を利用して、透かしを注入する。
このメカニズムにより、AgentWMは可視性信号を直接可視性行動軌跡に埋め込むことができる。
本研究では,ロバストな透かしスキームを生成する自動パイプラインと,厳密な統計的仮説検証手法を開発した。
3つの複雑な領域にわたる広範囲な評価は、AgentWMがエージェントのパフォーマンスに無視できない影響で高い検出精度を達成することを示す。
その結果, エージェントIPは, 盗難モデルの実用性を著しく低下させることなく, 透かしを除去できない, 適応的敵に対して効果的に保護されていることを確認した。
関連論文リスト
- SEAL: Subspace-Anchored Watermarks for LLM Ownership [12.022506016268112]
大規模言語モデルのためのサブスペース型透かしフレームワークSEALを提案する。
SEALはモデルの潜在表現空間に直接マルチビットシグネチャを埋め込んで、ホワイトボックスとブラックボックスの検証シナリオをサポートする。
我々は、SEALの優れた効率、忠実性、効率、堅牢性を示すために、複数のベンチマークデータセットと6つの著名なLCMに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-11-14T14:44:11Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Agentic Copyright Watermarking against Adversarial Evidence Forgery with Purification-Agnostic Curriculum Proxy Learning [8.695511322757262]
不正使用と不正なAIモデルの配布は、知的財産に深刻な脅威をもたらす。
モデル透かしはこの問題に対処するための重要なテクニックとして登場した。
本稿では,透かしモデルへのいくつかの貢献について述べる。
論文 参考訳(メタデータ) (2024-09-03T02:18:45Z) - Watermarking Recommender Systems [52.207721219147814]
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-Distribution Watermarking (AOW)を紹介する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
論文 参考訳(メタデータ) (2024-07-17T06:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。