論文の概要: TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents
- arxiv url: http://arxiv.org/abs/2602.06443v1
- Date: Fri, 06 Feb 2026 07:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.274954
- Title: TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents
- Title(参考訳): TrajAD:信頼できるLDMエージェントの軌道異常検出
- Authors: Yibing Liu, Chong Zhang, Zhongyi Han, Hansong Liu, Yong Wang, Yang Yu, Xiaoyan Wang, Yilong Yin,
- Abstract要約: 効率的なロールバック・アンド・リトライを実現するために必要な軌道異常検出
汎用LSMはこれらの異常を識別し、ローカライズするのに苦労する。
細粒度プロセス監視を訓練した特殊検証器であるTrajADを提案する。
- 参考スコア(独自算出の注目度): 47.147717604167376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of runtime trajectory anomaly detection, a critical capability for enabling trustworthy LLM agents. Current safety measures predominantly focus on static input/output filtering. However, we argue that ensuring LLM agents reliability requires auditing the intermediate execution process. In this work, we formulate the task of Trajectory Anomaly Detection. The goal is not merely detection, but precise error localization. This capability is essential for enabling efficient rollback-and-retry. To achieve this, we construct TrajBench, a dataset synthesized via a perturb-and-complete strategy to cover diverse procedural anomalies. Using this benchmark, we investigate the capability of models in process supervision. We observe that general-purpose LLMs, even with zero-shot prompting, struggle to identify and localize these anomalies. This reveals that generalized capabilities do not automatically translate to process reliability. To address this, we propose TrajAD, a specialized verifier trained with fine-grained process supervision. Our approach outperforms baselines, demonstrating that specialized supervision is essential for building trustworthy agents.
- Abstract(参考訳): 我々は,信頼性の高いLCMエージェントを実現するための重要な機能である,実行時軌道異常検出の問題に対処する。
現在の安全対策は主に静的な入出力フィルタリングに焦点を当てている。
しかし、LLMエージェントの信頼性を確保するには中間実行プロセスの監査が必要であると論じる。
本研究では,軌道異常検出のタスクを定式化する。
目標は単に検出するだけでなく、正確なエラーローカライゼーションだ。
この機能は、効率的なロールバックとリトライを可能にするために不可欠である。
そこで我々は,多種多様な手続き異常をカバーするために,摂動・完全戦略によって合成されたデータセットであるTrajBenchを構築した。
本ベンチマークを用いて,プロセス監視におけるモデルの有効性について検討する。
汎用LSMは、ゼロショットプロンプトであっても、これらの異常を識別し、ローカライズするのに苦労している。
これは、一般化された能力が自動的にプロセスの信頼性に変換されないことを示している。
そこで本研究では,プロセスのきめ細かい監督を訓練した特殊検証器であるTrajADを提案する。
当社のアプローチは、信頼性の高いエージェントを構築する上で、特別な監督が不可欠であることを実証し、ベースラインを上回ります。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。