論文の概要: Agent Guide: A Simple Agent Behavioral Watermarking Framework
- arxiv url: http://arxiv.org/abs/2504.05871v1
- Date: Tue, 08 Apr 2025 09:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:14.426495
- Title: Agent Guide: A Simple Agent Behavioral Watermarking Framework
- Title(参考訳): Agent Guide: シンプルなエージェントの振舞いの透かしフレームワーク
- Authors: Kaibo Huang, Zhongliang Yang, Linna Zhou,
- Abstract要約: Agent Guide(エージェントガイド)は、エージェントのハイレベルな判断(振る舞い)を確率バイアスを通じて導くことによって、透かしを埋め込む行動的透かしフレームワークである。
我々はz統計に基づく統計分析を用いて透かしを検出し、複数のラウンドで確実に抽出する。
我々のフレームワークは、悪意のあるエージェントを識別し、プロプライエタリなエージェントシステムを保護するために、エージェントの透かしに実用的で堅牢なソリューションを提供する。
- 参考スコア(独自算出の注目度): 9.434003291783858
- License:
- Abstract: The increasing deployment of intelligent agents in digital ecosystems, such as social media platforms, has raised significant concerns about traceability and accountability, particularly in cybersecurity and digital content protection. Traditional large language model (LLM) watermarking techniques, which rely on token-level manipulations, are ill-suited for agents due to the challenges of behavior tokenization and information loss during behavior-to-action translation. To address these issues, we propose Agent Guide, a novel behavioral watermarking framework that embeds watermarks by guiding the agent's high-level decisions (behavior) through probability biases, while preserving the naturalness of specific executions (action). Our approach decouples agent behavior into two levels, behavior (e.g., choosing to bookmark) and action (e.g., bookmarking with specific tags), and applies watermark-guided biases to the behavior probability distribution. We employ a z-statistic-based statistical analysis to detect the watermark, ensuring reliable extraction over multiple rounds. Experiments in a social media scenario with diverse agent profiles demonstrate that Agent Guide achieves effective watermark detection with a low false positive rate. Our framework provides a practical and robust solution for agent watermarking, with applications in identifying malicious agents and protecting proprietary agent systems.
- Abstract(参考訳): ソーシャルメディアプラットフォームのようなデジタルエコシステムにおけるインテリジェントエージェントの展開の増加は、トレーサビリティと説明責任、特にサイバーセキュリティとデジタルコンテンツ保護に関する重要な懸念を引き起こしている。
トークンレベルの操作に依存する従来の大規模言語モデル(LLM)の透かし技術は、行動トークン化の課題や行動から行動への変換時の情報損失のため、エージェントに不適である。
これらの問題に対処するため,エージェントガイドは,特定の実行(行動)の自然性を保ちながら,エージェントの高レベルな判断(行動バイアス)を導くことによって,透かしを埋め込む新しい行動型透かしフレームワークである。
本手法はエージェントの動作を2つのレベル(例えば、ブックマークを選択する)と行動(例えば、特定のタグでブックマークする)に分解し、透かし誘導バイアスを行動確率分布に適用する。
我々はz統計に基づく統計分析を用いて透かしを検出し、複数のラウンドで確実に抽出する。
多様なエージェントプロファイルを用いたソーシャルメディアシナリオの実験では,エージェントガイドが偽陽性率の低い効果的な透かし検出を実現することが示された。
我々のフレームワークは、悪意のあるエージェントを識別し、プロプライエタリなエージェントシステムを保護するために、エージェントの透かしに実用的で堅牢なソリューションを提供する。
関連論文リスト
- Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Robustness of Watermarking on Text-to-Image Diffusion Models [9.277492743469235]
本稿では,透かし埋め込みとテキスト・ツー・イメージ・ジェネレーション処理を統合することで生成する透かしの堅牢性について検討する。
生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-04T13:59:09Z) - Watermarking Recommender Systems [52.207721219147814]
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-Distribution Watermarking (AOW)を紹介する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
論文 参考訳(メタデータ) (2024-07-17T06:51:24Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - DIP-Watermark: A Double Identity Protection Method Based on Robust Adversarial Watermark [13.007649270429493]
顔認識(FR)システムはプライバシーのリスクを引き起こす。
1つの対策は敵攻撃であり、不正な悪意のあるFRを欺くことである。
トレース可能な対角線透かしに基づく最初の二重識別保護方式を提案する。
論文 参考訳(メタデータ) (2024-04-23T02:50:38Z) - Reliable Model Watermarking: Defending Against Theft without Compromising on Evasion [15.086451828825398]
回避敵は、ウォーターマークサンプルを記憶したモデルによって生成されるショートカットを、容易に利用することができる。
モデルを学習してそれらを正確に認識することで、ユニークな透かし行動が知識注入によって促進される。
論文 参考訳(メタデータ) (2024-04-21T03:38:20Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。