論文の概要: Watermarking LLM Agent Trajectories
- arxiv url: http://arxiv.org/abs/2602.18700v1
- Date: Sat, 21 Feb 2026 03:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.247378
- Title: Watermarking LLM Agent Trajectories
- Title(参考訳): 透かしLDMエージェントの軌道
- Authors: Wenlong Meng, Chen Gong, Terry Yue Zhuo, Fan Zhang, Kecen Li, Zheng Liu, Zhou Yang, Chengkun Wei, Wenzhi Chen,
- Abstract要約: 本稿では,エージェント軌跡データセットに適した最初の透かし手法であるActHookを紹介する。
ActHookはソフトウェアエンジニアリングのフック機構にインスパイアされ、秘密の入力キーによって起動されるフックアクションを組み込む。
アクティベーションキーが存在する場合、透かし軌道上で訓練されたLDMエージェントは、これらのフックアクションを著しく高い速度で生成することができる。
- 参考スコア(独自算出の注目度): 25.0049018162327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents rely heavily on high-quality trajectory data to guide their problem-solving behaviors, yet producing such data requires substantial task design, high-capacity model generation, and manual filtering. Despite the high cost of creating these datasets, existing literature has overlooked copyright protection for LLM agent trajectories. This gap leaves creators vulnerable to data theft and makes it difficult to trace misuse or enforce ownership rights. This paper introduces ActHook, the first watermarking method tailored for agent trajectory datasets. Inspired by hook mechanisms in software engineering, ActHook embeds hook actions that are activated by a secret input key and do not alter the original task outcome. Like software execution, LLM agents operate sequentially, allowing hook actions to be inserted at decision points without disrupting task flow. When the activation key is present, an LLM agent trained on watermarked trajectories can produce these hook actions at a significantly higher rate, enabling reliable black-box detection. Experiments on mathematical reasoning, web searching, and software engineering agents show that ActHook achieves an average detection AUC of 94.3 on Qwen-2.5-Coder-7B while incurring negligible performance degradation.
- Abstract(参考訳): LLMエージェントは問題解決行動のガイドとして高品質な軌道データに大きく依存するが、そのようなデータを生成するには相当なタスク設計、高容量モデル生成、手動フィルタリングが必要である。
これらのデータセットを作成するコストが高いにもかかわらず、既存の文献はLLMエージェントの軌跡に対する著作権保護を見落としている。
このギャップは、データ盗難に弱いクリエーターを残し、不正使用の追跡や所有権の強制を困難にする。
本稿では,エージェント軌跡データセットに適した最初の透かし手法であるActHookを紹介する。
ActHookは、ソフトウェアエンジニアリングのフック機構にインスパイアされ、秘密の入力キーによって起動され、元のタスク結果を変えないフックアクションを組み込む。
ソフトウェア実行と同様に、LLMエージェントはシーケンシャルに動作し、タスクフローを中断することなく、決定ポイントでフックアクションを挿入できる。
アクティベーションキーが存在する場合、ウォーターマークされた軌道上で訓練されたLDMエージェントは、これらのフックアクションを極めて高い速度で生成し、信頼性の高いブラックボックス検出を可能にする。
数学的推論、Web検索、ソフトウェア工学エージェントの実験により、ActHookはQwen-2.5-Coder-7B上で平均94.3のAUCを達成し、無視できる性能劣化を引き起こす。
関連論文リスト
- Watermarking LLM-Generated Datasets in Downstream Tasks [26.31171813997747]
大規模言語モデル(LLM)は、感情分類、レビュー生成、質問応答など幅広い分野にまたがる、急速な進歩を経験した。
効率性と汎用性のため、研究者や企業はモデルをトレーニングするためにLLM生成データをますます活用している。
LLMが生成したコンテンツを追跡できないことは大きな課題となり、LLM所有者の著作権侵害につながる可能性がある。
本研究では,LLM生成データセットに透かしを注入する手法を提案する。
論文 参考訳(メタデータ) (2025-06-16T13:51:49Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。