論文の概要: Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning
- arxiv url: http://arxiv.org/abs/2605.24216v1
- Date: Fri, 22 May 2026 20:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.751571
- Title: Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning
- Title(参考訳): Agent-ToM:Mind-of-Mind Reasoningによる自律LDMエージェントのモニタリング学習
- Authors: Nesreen K. Ahmed, Nima Nafisi,
- Abstract要約: 不正行為を隠蔽する自律型大規模言語モデル(LLM)エージェントの監視は、遅延、コンテキスト依存、長期攻撃パターンのために困難である。
自律エージェントのセキュリティ分析を前提とした学習監視フレームワークである textbfAgent-ToM を提案する。
- 参考スコア(独自算出の注目度): 11.914433611519359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monitoring autonomous large language model (LLM) agents for covert malicious behavior is challenging due to delayed, context-dependent, and long-horizon attack patterns. Agents may pursue hidden objectives while maintaining superficially benign behavior, making detection difficult even with full trajectory access. Prior monitoring approaches improve scaffolding or ensemble aggregation, but treat each trajectory independently and do not learn from prior monitoring experience. Moreover, standard reasoning methods explain observed behavior without explicitly reasoning about agent beliefs, intentions, and goal alignment required to distinguish benign task execution from covert deviation. We propose \textbf{Agent-ToM}, a learning-to-monitor framework grounded in Theory-of-Mind (ToM) reasoning for security analysis of autonomous agents. Agent-ToM performs structured full-trajectory analysis by inferring beliefs, intent hypotheses with calibrated confidence, expected actions, and deviations from task-consistent behavioral baselines. At inference time, it employs a \textit{Reason-Verify-Refine} pipeline to construct and validate monitoring decisions. At training time, Agent-ToM distills critique signals into a persistent \textit{semantic guardrail memory}, enabling reusable belief- and intent-conditioned constraints across episodes. We evaluate Agent-ToM on adversarial agent monitoring benchmarks (SHADE-Arena and CUA-SHADE-Arena). Agent-ToM achieves strong precision-recall balance and outperforms state-of-the-art monitoring baselines, including ensemble methods, while using a coherent two-call reasoning pipeline. These results demonstrate that learning at the monitoring layer, combined with structured ToM reasoning and verification, provides an effective and deployable foundation for securing autonomous LLM agents.
- Abstract(参考訳): 不正行為を隠蔽する自律型大規模言語モデル(LLM)エージェントの監視は、遅延、コンテキスト依存、長期攻撃パターンのために困難である。
エージェントは、表面的良性行動を維持しながら隠れた目的を追求し、完全な軌道アクセスであっても検出が困難になる。
以前のモニタリングアプローチは、足場やアンサンブルアグリゲーションを改善するが、それぞれのトラジェクトリを独立して扱い、以前の監視経験から学ばない。
さらに、標準的な推論手法では、エージェントの信念、意図、目的のアライメントを明示的に推論することなく、観察された振る舞いを説明できる。
本稿では,自律エージェントのセキュリティ分析のための理論・オブ・ミンド(ToM)に基づく学習監視フレームワークである‘textbf{Agent-ToM} を提案する。
Agent-ToMは、信念、正当性のある意図仮説、期待された行動、タスク一貫性の行動ベースラインからの逸脱を推論して、構造化された全軌道解析を行う。
推論時に、監視決定を構築し、検証するために、‘textit{Reason-Verify-Refine}パイプラインを使用する。
トレーニング時に、Agent-ToMは批判信号を永続的な \textit{semantic guardrail memory} に蒸留し、エピソード間で再利用可能な信念と意図条件の制約を可能にする。
我々は,敵エージェント監視ベンチマーク(SHADE-Arena と CUA-SHADE-Arena)における Agent-ToM の評価を行った。
Agent-ToMは高い精度のリコールバランスを実現し、コヒーレントな2コール推論パイプラインを使用しながら、アンサンブルメソッドを含む最先端の監視ベースラインを上回っている。
これらの結果は、モニタリング層での学習と構造化されたToM推論と検証を組み合わせることで、自律LLMエージェントの安全性を確保するための効果的でデプロイ可能な基盤を提供することを示した。
関連論文リスト
- Noticing the Watcher: LLM Agents Can Infer CoT Monitoring from Blocking Feedback [48.40096834514452]
言語モデルエージェントの内部推論を監督する手法として,Chain-of-Thought(CoT)モニタリングを提案する。
我々は、推論エージェントが彼らのプライベートなCoTが監視下にあると自律的に推測できるかどうかを尋ねる。
フェデラーモデルでは、フィードバックをブロックすることで、このモニターの存在を純粋に推測することができる。
論文 参考訳(メタデータ) (2026-03-14T00:12:14Z) - DRAFT: Task Decoupled Latent Reasoning for Agent Safety [59.46137757545185]
DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案する。
エクストラクターは、完全な軌跡をコンパクトな連続的な潜伏ドラフトに蒸留し、リゾナーはドラフトと元の軌跡に共同で参加して安全性を予測する。
DRAFTの精度は63.27%(LoRA)から91.18%に向上した。
論文 参考訳(メタデータ) (2026-02-11T07:45:14Z) - AgentTrace: A Structured Logging Framework for Agent System Observability [0.0]
AgentTraceは、このギャップを埋めるために設計された動的可観測性とテレメトリフレームワークである。
従来のロギングシステムとは異なり、AgentTraceは継続的でイントロスペクタブルなトレースキャプチャを強調している。
我々の研究は、AgentTraceがより信頼性の高いエージェントデプロイメント、きめ細かいリスク分析、情報信頼の校正を可能にする方法を強調している。
論文 参考訳(メタデータ) (2026-02-07T04:04:59Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems [0.0]
本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。
また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。
当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
論文 参考訳(メタデータ) (2025-12-19T06:12:43Z) - Large language models require a new form of oversight: capability-based monitoring [10.382163755118713]
医療における大規模言語モデル(LLM)には、その監視に関する精査が伴っている。
そこで本研究では,これらのモデルの開発と実用化に基礎を置き,拡張性のあるジェネラリストLLMモニタリングの組織的原則を提案する。
機能ベースのモニタリングアプローチを実装する上で、開発者、組織リーダー、プロフェッショナル社会に対する考慮事項について説明する。
論文 参考訳(メタデータ) (2025-11-05T01:20:28Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。