論文の概要: Watermarking LLM Agent Trajectories
- arxiv url: http://arxiv.org/abs/2602.18700v1
- Date: Sat, 21 Feb 2026 03:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.247378
- Title: Watermarking LLM Agent Trajectories
- Title(参考訳): 透かしLDMエージェントの軌道
- Authors: Wenlong Meng, Chen Gong, Terry Yue Zhuo, Fan Zhang, Kecen Li, Zheng Liu, Zhou Yang, Chengkun Wei, Wenzhi Chen,
- Abstract要約: 本稿では,エージェント軌跡データセットに適した最初の透かし手法であるActHookを紹介する。
ActHookはソフトウェアエンジニアリングのフック機構にインスパイアされ、秘密の入力キーによって起動されるフックアクションを組み込む。
アクティベーションキーが存在する場合、透かし軌道上で訓練されたLDMエージェントは、これらのフックアクションを著しく高い速度で生成することができる。
- 参考スコア(独自算出の注目度): 25.0049018162327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents rely heavily on high-quality trajectory data to guide their problem-solving behaviors, yet producing such data requires substantial task design, high-capacity model generation, and manual filtering. Despite the high cost of creating these datasets, existing literature has overlooked copyright protection for LLM agent trajectories. This gap leaves creators vulnerable to data theft and makes it difficult to trace misuse or enforce ownership rights. This paper introduces ActHook, the first watermarking method tailored for agent trajectory datasets. Inspired by hook mechanisms in software engineering, ActHook embeds hook actions that are activated by a secret input key and do not alter the original task outcome. Like software execution, LLM agents operate sequentially, allowing hook actions to be inserted at decision points without disrupting task flow. When the activation key is present, an LLM agent trained on watermarked trajectories can produce these hook actions at a significantly higher rate, enabling reliable black-box detection. Experiments on mathematical reasoning, web searching, and software engineering agents show that ActHook achieves an average detection AUC of 94.3 on Qwen-2.5-Coder-7B while incurring negligible performance degradation.
- Abstract(参考訳): LLMエージェントは問題解決行動のガイドとして高品質な軌道データに大きく依存するが、そのようなデータを生成するには相当なタスク設計、高容量モデル生成、手動フィルタリングが必要である。
これらのデータセットを作成するコストが高いにもかかわらず、既存の文献はLLMエージェントの軌跡に対する著作権保護を見落としている。
このギャップは、データ盗難に弱いクリエーターを残し、不正使用の追跡や所有権の強制を困難にする。
本稿では,エージェント軌跡データセットに適した最初の透かし手法であるActHookを紹介する。
ActHookは、ソフトウェアエンジニアリングのフック機構にインスパイアされ、秘密の入力キーによって起動され、元のタスク結果を変えないフックアクションを組み込む。
ソフトウェア実行と同様に、LLMエージェントはシーケンシャルに動作し、タスクフローを中断することなく、決定ポイントでフックアクションを挿入できる。
アクティベーションキーが存在する場合、ウォーターマークされた軌道上で訓練されたLDMエージェントは、これらのフックアクションを極めて高い速度で生成し、信頼性の高いブラックボックス検出を可能にする。
数学的推論、Web検索、ソフトウェア工学エージェントの実験により、ActHookはQwen-2.5-Coder-7B上で平均94.3のAUCを達成し、無視できる性能劣化を引き起こす。
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Leave No TRACE: Black-box Detection of Copyrighted Dataset Usage in Large Language Models via Watermarking [51.74368870268278]
我々は,大規模な言語モデルにおける著作権付きデータセット使用量を完全にブラックボックスで検出するフレームワークであるTRACEを提案する。
textttTRACEは、プライベートキーでガイドされた歪みのない透かしでデータセットを書き換える。
さまざまなデータセットとモデルファミリにわたって、TRACEは一貫して重要な検出を実現している。
論文 参考訳(メタデータ) (2025-10-03T12:53:02Z) - Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。
本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。
本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文 参考訳(メタデータ) (2025-09-26T12:07:47Z) - Watermarking LLM-Generated Datasets in Downstream Tasks [26.31171813997747]
大規模言語モデル(LLM)は、感情分類、レビュー生成、質問応答など幅広い分野にまたがる、急速な進歩を経験した。
効率性と汎用性のため、研究者や企業はモデルをトレーニングするためにLLM生成データをますます活用している。
LLMが生成したコンテンツを追跡できないことは大きな課題となり、LLM所有者の著作権侵害につながる可能性がある。
本研究では,LLM生成データセットに透かしを注入する手法を提案する。
論文 参考訳(メタデータ) (2025-06-16T13:51:49Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - MCGMark: An Encodable and Robust Online Watermark for Tracing LLM-Generated Malicious Code [38.057161919792485]
我々は、LCM生成コードを追跡するための、最初の堅牢で、コード構造を認識し、エンコード可能な透かしアプローチであるMCGMarkを提案する。
MCGMarkは最大出力限界の400トークン内に88.9%の埋め込み成功率を達成する。
論文 参考訳(メタデータ) (2024-08-02T16:04:52Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - On Extracting Specialized Code Abilities from Large Language Models: A
Feasibility Study [22.265542509143756]
大規模言語モデル(LLM)における模倣攻撃の実現可能性について検討する。
攻撃者は、中規模のバックボーンモデルを訓練して、ターゲットのLLMに似た特殊なコード動作を再現できることを示す。
論文 参考訳(メタデータ) (2023-03-06T10:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。