論文の概要: Reliable Weak-to-Strong Monitoring of LLM Agents
- arxiv url: http://arxiv.org/abs/2508.19461v1
- Date: Tue, 26 Aug 2025 22:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.437678
- Title: Reliable Weak-to-Strong Monitoring of LLM Agents
- Title(参考訳): LLM剤の信頼性評価
- Authors: Neil Kale, Chen Bo Calvin Zhang, Kevin Zhu, Ankit Aich, Paula Rodriguez, Scale Red Team, Christina Q. Knight, Zifan Wang,
- Abstract要約: 我々は,自律エージェントの隠蔽行動を検出するためのテスト監視システムを強調した。
我々は、様々なレベルのエージェントを組み込んだ監視レッドチーム(MRT)ワークフローを開発し、状況認識を監視する。
さらなる研究を促進するために、コード、データ、ログをリリースしています。
- 参考スコア(独自算出の注目度): 6.922769543581406
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We stress test monitoring systems for detecting covert misbehavior in autonomous LLM agents (e.g., secretly sharing private information). To this end, we systematize a monitor red teaming (MRT) workflow that incorporates: (1) varying levels of agent and monitor situational awareness; (2) distinct adversarial strategies to evade the monitor, such as prompt injection; and (3) two datasets and environments -- SHADE-Arena for tool-calling agents and our new CUA-SHADE-Arena, which extends TheAgentCompany, for computer-use agents. We run MRT on existing LLM monitor scaffoldings, which orchestrate LLMs and parse agent trajectories, alongside a new hybrid hierarchical-sequential scaffolding proposed in this work. Our empirical results yield three key findings. First, agent awareness dominates monitor awareness: an agent's knowledge that it is being monitored substantially degrades the monitor's reliability. On the contrary, providing the monitor with more information about the agent is less helpful than expected. Second, monitor scaffolding matters more than monitor awareness: the hybrid scaffolding consistently outperforms baseline monitor scaffolding, and can enable weaker models to reliably monitor stronger agents -- a weak-to-strong scaling effect. Third, in a human-in-the-loop setting where humans discuss with the LLM monitor to get an updated judgment for the agent's behavior, targeted human oversight is most effective; escalating only pre-flagged cases to human reviewers improved the TPR by approximately 15% at FPR = 0.01. Our work establishes a standard workflow for MRT, highlighting the lack of adversarial robustness for LLMs and humans when monitoring and detecting agent misbehavior. We release code, data, and logs to spur further research.
- Abstract(参考訳): 自律型LCMエージェント(秘密情報共有など)における隠蔽行動を検出するためのテスト監視システムを強調した。
この目的のために,(1)エージェントのさまざまなレベルと状況認識の監視,(2)プロンプトインジェクションなどのモニタの回避,(3)ツールコールエージェントのSHADE-Arenaと,コンピュータ利用エージェントのTheAgentCompanyを拡張するCUA-SHADE-Arenaの2つのデータセットと環境を含むモニタレッドチーム(MRT)ワークフローを体系化する。
本研究では, LLM とパースエージェントトラジェクトリをオーケストレーションする既存の LLM モニタの足場上で MRT を実行するとともに, 本研究で提案した新しいハイブリッド階層型階層型足場について述べる。
実験結果から3つの重要な結果が得られた。
まず、エージェントの認識がモニターの認識を支配し、監視されているというエージェントの知識は、モニターの信頼性を著しく低下させる。
それとは対照的に、エージェントに関する情報をモニターに提供することは、期待するほど役に立たない。
第2に、足場監視は、認識の監視以上のことが重要である。ハイブリッド足場は、ベースラインのモニター足場を一貫して上回り、より弱いモデルでより強力なエージェントを確実に監視することができる。
第3に、人間がLSMモニターと議論し、エージェントの行動に関する最新の判断を得るというループの環境では、標的となる人間の監視が最も効果的であり、FPR=0.01でTPRを約15%改善した。
我々の研究は、MLTの標準的なワークフローを確立し、エージェントの誤動作を監視し検知する際のLLMと人間に対する敵の頑健さの欠如を強調している。
さらなる研究を促進するために、コード、データ、ログをリリースしています。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents [8.02267424051267]
大規模言語モデル(LLM)は、複雑で長い地平線設定において、自律的なエージェントとしてますます多くデプロイされている。
本研究では,フロンティアLSMの監視を回避し,有害な隠れた目標を達成する能力について検討する。
SHADE(Subtle Harmful Agent Detection & Evaluation)-Arenaを用いて,広い範囲のフロンティアLSMを評価した。
論文 参考訳(メタデータ) (2025-06-17T15:46:15Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems [43.333567687032904]
AgentMonitorはエージェントレベルで統合されたフレームワークで、インプットとアウトプットをキャプチャし、回帰モデルをトレーニングしてタスクのパフォーマンスを予測する統計に変換する。
さらに、悪意のあるエージェントによるセキュリティリスクに対処し、ネガティブな影響を軽減し、MASセキュリティを強化するために、リアルタイムの修正を適用することができる。
論文 参考訳(メタデータ) (2024-08-27T11:24:38Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。