論文の概要: AgentMark: Utility-Preserving Behavioral Watermarking for Agents
- arxiv url: http://arxiv.org/abs/2601.03294v1
- Date: Mon, 05 Jan 2026 15:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.035556
- Title: AgentMark: Utility-Preserving Behavioral Watermarking for Agents
- Title(参考訳): AgentMark: エージェントのためのユーティリティ保護行動透かし
- Authors: Kaibo Huang, Jin Tan, Yukun Wei, Wanling Li, Zipei Zhang, Hui Tian, Zhongliang Yang, Linna Zhou,
- Abstract要約: AgentMarkは、ユーティリティを保持しながら、計画決定にマルチビット識別子を組み込むフレームワークである。
エージェントから明示的な挙動分布を抽出し、分布保存条件サンプリングを適用する。
具体化、ツール利用、社会環境における実験は、実用的なマルチビット容量、部分ログからの堅牢な回復、ユーティリティ保存を実証している。
- 参考スコア(独自算出の注目度): 20.30614808186259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents are increasingly deployed to autonomously solve complex tasks, raising urgent needs for IP protection and regulatory provenance. While content watermarking effectively attributes LLM-generated outputs, it fails to directly identify the high-level planning behaviors (e.g., tool and subgoal choices) that govern multi-step execution. Critically, watermarking at the planning-behavior layer faces unique challenges: minor distributional deviations in decision-making can compound during long-term agent operation, degrading utility, and many agents operate as black boxes that are difficult to intervene in directly. To bridge this gap, we propose AgentMark, a behavioral watermarking framework that embeds multi-bit identifiers into planning decisions while preserving utility. It operates by eliciting an explicit behavior distribution from the agent and applying distribution-preserving conditional sampling, enabling deployment under black-box APIs while remaining compatible with action-layer content watermarking. Experiments across embodied, tool-use, and social environments demonstrate practical multi-bit capacity, robust recovery from partial logs, and utility preservation. The code is available at https://github.com/Tooooa/AgentMark.
- Abstract(参考訳): LLMベースのエージェントは、複雑なタスクを自律的に解決するためにますますデプロイされ、IP保護と規制の立証に対する緊急の要求が高まっている。
コンテンツ透かしはLLM生成出力を効果的に特徴付けるが、多段階実行を管理する高レベルの計画行動(ツールやサブゴールの選択など)を直接識別することができない。
意思決定における小さな分布偏差は、長期的なエージェント操作中に複雑になり、実用性は低下し、多くのエージェントは直接介入しにくいブラックボックスとして機能する。
このギャップを埋めるために,多ビット識別子を計画決定に埋め込んだ動作型透かしフレームワークであるAgentMarkを提案する。
エージェントから明示的な振る舞い分布を抽出し、分散保存条件付きサンプリングを適用して、アクション層コンテンツ透かしとの互換性を維持しながら、ブラックボックスAPI下でのデプロイメントを可能にする。
具体化、ツール利用、社会環境における実験は、実用的なマルチビット容量、部分ログからの堅牢な回復、ユーティリティ保存を実証している。
コードはhttps://github.com/Tooooa/AgentMarkで入手できる。
関連論文リスト
- DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z) - Agent Guide: A Simple Agent Behavioral Watermarking Framework [8.635811152610604]
Agent Guide(エージェントガイド)は、エージェントのハイレベルな判断(振る舞い)を確率バイアスを通じて導くことによって、透かしを埋め込む行動的透かしフレームワークである。
我々はz統計に基づく統計分析を用いて透かしを検出し、複数のラウンドで確実に抽出する。
我々のフレームワークは、悪意のあるエージェントを識別し、プロプライエタリなエージェントシステムを保護するために、エージェントの透かしに実用的で堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-08T09:54:49Z) - UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning [17.448966928905733]
外部ツールを備えた大規模言語モデル(LLM)エージェントは、複雑なタスクに対してますます強力になっている。
UDoraはLDMエージェント用に設計された統一されたレッド・チーム・フレームワークで、エージェントの推論プロセスを動的にハイジャックし、悪意ある振る舞いを強制する。
論文 参考訳(メタデータ) (2025-02-28T21:30:28Z) - DynaSaur: Large Language Agents Beyond Predefined Actions [126.98162266986554]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。
動作を動的に生成・構成できるLLMエージェントフレームワークを提案する。
このフレームワークでは、汎用プログラミング言語で書かれたプログラムを生成し実行することで、エージェントが環境と対話する。
論文 参考訳(メタデータ) (2024-11-04T02:08:59Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。