論文の概要: TraceAegis: Securing LLM-Based Agents via Hierarchical and Behavioral Anomaly Detection
- arxiv url: http://arxiv.org/abs/2510.11203v1
- Date: Mon, 13 Oct 2025 09:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.300968
- Title: TraceAegis: Securing LLM-Based Agents via Hierarchical and Behavioral Anomaly Detection
- Title(参考訳): TraceAegis:階層的および行動異常検出によるLSMベースのエージェントのセキュア化
- Authors: Jiahao Liu, Bonan Ruan, Xianglin Yang, Zhiwei Lin, Yan Liu, Yang Wang, Tao Wei, Zhenkai Liang,
- Abstract要約: エージェントの実行トレースを利用して潜在的な異常を検出する,プロファイランスに基づく分析フレームワークであるTraceAegisを提案する。
階層的制約と行動的制約の両方に対して実行トレースを検証することで、TraceAegisは異常な動作を効果的に検出することができる。
- 参考スコア(独自算出の注目度): 31.243042511018675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based agents have demonstrated promising adaptability in real-world applications. However, these agents remain vulnerable to a wide range of attacks, such as tool poisoning and malicious instructions, that compromise their execution flow and can lead to serious consequences like data breaches and financial loss. Existing studies typically attempt to mitigate such anomalies by predefining specific rules and enforcing them at runtime to enhance safety. Yet, designing comprehensive rules is difficult, requiring extensive manual effort and still leaving gaps that result in false negatives. As agent systems evolve into complex software systems, we take inspiration from software system security and propose TraceAegis, a provenance-based analysis framework that leverages agent execution traces to detect potential anomalies. In particular, TraceAegis constructs a hierarchical structure to abstract stable execution units that characterize normal agent behaviors. These units are then summarized into constrained behavioral rules that specify the conditions necessary to complete a task. By validating execution traces against both hierarchical and behavioral constraints, TraceAegis is able to effectively detect abnormal behaviors. To evaluate the effectiveness of TraceAegis, we introduce TraceAegis-Bench, a dataset covering two representative scenarios: healthcare and corporate procurement. Each scenario includes 1,300 benign behaviors and 300 abnormal behaviors, where the anomalies either violate the agent's execution order or break the semantic consistency of its execution sequence. Experimental results demonstrate that TraceAegis achieves strong performance on TraceAegis-Bench, successfully identifying the majority of abnormal behaviors.
- Abstract(参考訳): LLMをベースとしたエージェントは、現実の応用において有望な適応性を示した。
しかし、これらのエージェントは、ツール中毒や悪意のある指示などの幅広い攻撃に対して脆弱であり、実行フローを侵害し、データ漏洩や財務損失といった深刻な結果をもたらす可能性がある。
既存の研究は通常、特定のルールを事前に定義し、安全性を高めるために実行時にそれらを強制することによって、そのような異常を緩和しようとする。
しかし、包括的なルールを設計することは困難で、広範囲の手作業が必要であり、いまだに誤ったネガティブな結果をもたらすギャップを残している。
エージェントシステムが複雑なソフトウェアシステムへと進化するにつれて、ソフトウェアシステムのセキュリティからインスピレーションを得て、エージェントの実行トレースを利用して潜在的な異常を検出するプロファイランスベースの分析フレームワークであるTraceAegisを提案する。
特にTraceAegisは、通常のエージェントの振る舞いを特徴付ける安定した実行ユニットを抽象化するために階層構造を構築している。
これらのユニットは、タスクを完了するために必要な条件を指定する制約された行動規則にまとめられる。
階層的制約と行動的制約の両方に対して実行トレースを検証することで、TraceAegisは異常な動作を効果的に検出することができる。
TraceAegisの有効性を評価するために,TraceAegis-Benchを紹介した。
それぞれのシナリオには1,300の良性な振る舞いと300の異常な振る舞いが含まれており、異常はエージェントの実行順序に違反したり、実行シーケンスのセマンティック一貫性を損なう。
実験の結果,TraceAegisはTraceAegis-Benchで高い性能を示し,異常な挙動の大部分を同定した。
関連論文リスト
- Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。
本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。
本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文 参考訳(メタデータ) (2025-09-26T12:07:47Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - EagleEye: Attention to Unveil Malicious Event Sequences from Provenance Graphs [1.3359586871482305]
エンドポイントのセキュリティは、脅威とアタックの進化の性質のため、難しい。
エンドポイントロギングシステムが成熟するにつれて、プロファイランスグラフ表現は洗練された振る舞いルールの作成を可能にします。
本稿では,行動事象の表現にプロファイランスグラフからリッチな特徴を利用する新しいシステムであるEagleEyeを開発し,提示する。
論文 参考訳(メタデータ) (2024-08-17T14:48:02Z) - Learning Recovery Strategies for Dynamic Self-healing in Reactive
Systems [1.7218973692320518]
自己修復システムは、既知の障害状態から回復するための事前定義された命令のセットに従うことに依存する。
本提案では,システム特性の満足度条件を規定する述語としてモニタを定義する。
我々は、強化学習に基づく手法を用いて、ユーザの修正シーケンスに基づいた回復戦略を学習する。
論文 参考訳(メタデータ) (2024-01-22T23:34:21Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - InfoBehavior: Self-supervised Representation Learning for Ultra-long
Behavior Sequence via Hierarchical Grouping [14.80873165144865]
電子商取引会社は、リスクの高い製品を販売している異常な売り手と向き合わなければならない。
従来の特徴抽出技術はドメインの専門家に大きく依存し、新しいタスクにうまく適応する。
超長い生の行動列から意味のある表現を自動的に抽出する自己教師型InfoBehaviorを提案する。
論文 参考訳(メタデータ) (2021-06-13T03:45:45Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。