論文の概要: TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents
- arxiv url: http://arxiv.org/abs/2602.06443v1
- Date: Fri, 06 Feb 2026 07:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.274954
- Title: TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents
- Title(参考訳): TrajAD:信頼できるLDMエージェントの軌道異常検出
- Authors: Yibing Liu, Chong Zhang, Zhongyi Han, Hansong Liu, Yong Wang, Yang Yu, Xiaoyan Wang, Yilong Yin,
- Abstract要約: 効率的なロールバック・アンド・リトライを実現するために必要な軌道異常検出
汎用LSMはこれらの異常を識別し、ローカライズするのに苦労する。
細粒度プロセス監視を訓練した特殊検証器であるTrajADを提案する。
- 参考スコア(独自算出の注目度): 47.147717604167376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of runtime trajectory anomaly detection, a critical capability for enabling trustworthy LLM agents. Current safety measures predominantly focus on static input/output filtering. However, we argue that ensuring LLM agents reliability requires auditing the intermediate execution process. In this work, we formulate the task of Trajectory Anomaly Detection. The goal is not merely detection, but precise error localization. This capability is essential for enabling efficient rollback-and-retry. To achieve this, we construct TrajBench, a dataset synthesized via a perturb-and-complete strategy to cover diverse procedural anomalies. Using this benchmark, we investigate the capability of models in process supervision. We observe that general-purpose LLMs, even with zero-shot prompting, struggle to identify and localize these anomalies. This reveals that generalized capabilities do not automatically translate to process reliability. To address this, we propose TrajAD, a specialized verifier trained with fine-grained process supervision. Our approach outperforms baselines, demonstrating that specialized supervision is essential for building trustworthy agents.
- Abstract(参考訳): 我々は,信頼性の高いLCMエージェントを実現するための重要な機能である,実行時軌道異常検出の問題に対処する。
現在の安全対策は主に静的な入出力フィルタリングに焦点を当てている。
しかし、LLMエージェントの信頼性を確保するには中間実行プロセスの監査が必要であると論じる。
本研究では,軌道異常検出のタスクを定式化する。
目標は単に検出するだけでなく、正確なエラーローカライゼーションだ。
この機能は、効率的なロールバックとリトライを可能にするために不可欠である。
そこで我々は,多種多様な手続き異常をカバーするために,摂動・完全戦略によって合成されたデータセットであるTrajBenchを構築した。
本ベンチマークを用いて,プロセス監視におけるモデルの有効性について検討する。
汎用LSMは、ゼロショットプロンプトであっても、これらの異常を識別し、ローカライズするのに苦労している。
これは、一般化された能力が自動的にプロセスの信頼性に変換されないことを示している。
そこで本研究では,プロセスのきめ細かい監督を訓練した特殊検証器であるTrajADを提案する。
当社のアプローチは、信頼性の高いエージェントを構築する上で、特別な監督が不可欠であることを実証し、ベースラインを上回ります。
関連論文リスト
- Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - AgentTrace: A Structured Logging Framework for Agent System Observability [0.0]
AgentTraceは、このギャップを埋めるために設計された動的可観測性とテレメトリフレームワークである。
従来のロギングシステムとは異なり、AgentTraceは継続的でイントロスペクタブルなトレースキャプチャを強調している。
我々の研究は、AgentTraceがより信頼性の高いエージェントデプロイメント、きめ細かいリスク分析、情報信頼の校正を可能にする方法を強調している。
論文 参考訳(メタデータ) (2026-02-07T04:04:59Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - LLM-based Few-Shot Early Rumor Detection with Imitation Agent [16.230257899856046]
Early Rumor Detection (EARD) は、複数のソーシャルメディア投稿に基づいてクレームを正確に分類できる最初期のポイントを特定することを目的としている。
大規模言語モデル(LLM)は、数ショットのNLPタスクではうまく機能するが、時系列データには適していない。
本稿では,自律エージェントとLLMに基づく検出モデルを組み合わせた新しいEARDフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T12:42:27Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - The Illusion of Procedural Reasoning: Measuring Long-Horizon FSM Execution in LLMs [10.228723521208858]
大規模言語モデル (LLM) は推論問題としてのタスクにおいて顕著な結果を得た。
手続き的推論を実行し、多段階のルールベースの計算を実行する真の能力は、まだ不明である。
LLMの手続き的推論能力を評価するためのフレームワークとして有限状態機械実行を導入する。
論文 参考訳(メタデータ) (2025-11-05T18:44:47Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。