論文の概要: Reliable Weak-to-Strong Monitoring of LLM Agents
- arxiv url: http://arxiv.org/abs/2508.19461v1
- Date: Tue, 26 Aug 2025 22:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.437678
- Title: Reliable Weak-to-Strong Monitoring of LLM Agents
- Title(参考訳): LLM剤の信頼性評価
- Authors: Neil Kale, Chen Bo Calvin Zhang, Kevin Zhu, Ankit Aich, Paula Rodriguez, Scale Red Team, Christina Q. Knight, Zifan Wang,
- Abstract要約: 我々は,自律エージェントの隠蔽行動を検出するためのテスト監視システムを強調した。
我々は、様々なレベルのエージェントを組み込んだ監視レッドチーム(MRT)ワークフローを開発し、状況認識を監視する。
さらなる研究を促進するために、コード、データ、ログをリリースしています。
- 参考スコア(独自算出の注目度): 6.922769543581406
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We stress test monitoring systems for detecting covert misbehavior in autonomous LLM agents (e.g., secretly sharing private information). To this end, we systematize a monitor red teaming (MRT) workflow that incorporates: (1) varying levels of agent and monitor situational awareness; (2) distinct adversarial strategies to evade the monitor, such as prompt injection; and (3) two datasets and environments -- SHADE-Arena for tool-calling agents and our new CUA-SHADE-Arena, which extends TheAgentCompany, for computer-use agents. We run MRT on existing LLM monitor scaffoldings, which orchestrate LLMs and parse agent trajectories, alongside a new hybrid hierarchical-sequential scaffolding proposed in this work. Our empirical results yield three key findings. First, agent awareness dominates monitor awareness: an agent's knowledge that it is being monitored substantially degrades the monitor's reliability. On the contrary, providing the monitor with more information about the agent is less helpful than expected. Second, monitor scaffolding matters more than monitor awareness: the hybrid scaffolding consistently outperforms baseline monitor scaffolding, and can enable weaker models to reliably monitor stronger agents -- a weak-to-strong scaling effect. Third, in a human-in-the-loop setting where humans discuss with the LLM monitor to get an updated judgment for the agent's behavior, targeted human oversight is most effective; escalating only pre-flagged cases to human reviewers improved the TPR by approximately 15% at FPR = 0.01. Our work establishes a standard workflow for MRT, highlighting the lack of adversarial robustness for LLMs and humans when monitoring and detecting agent misbehavior. We release code, data, and logs to spur further research.
- Abstract(参考訳): 自律型LCMエージェント(秘密情報共有など)における隠蔽行動を検出するためのテスト監視システムを強調した。
この目的のために,(1)エージェントのさまざまなレベルと状況認識の監視,(2)プロンプトインジェクションなどのモニタの回避,(3)ツールコールエージェントのSHADE-Arenaと,コンピュータ利用エージェントのTheAgentCompanyを拡張するCUA-SHADE-Arenaの2つのデータセットと環境を含むモニタレッドチーム(MRT)ワークフローを体系化する。
本研究では, LLM とパースエージェントトラジェクトリをオーケストレーションする既存の LLM モニタの足場上で MRT を実行するとともに, 本研究で提案した新しいハイブリッド階層型階層型足場について述べる。
実験結果から3つの重要な結果が得られた。
まず、エージェントの認識がモニターの認識を支配し、監視されているというエージェントの知識は、モニターの信頼性を著しく低下させる。
それとは対照的に、エージェントに関する情報をモニターに提供することは、期待するほど役に立たない。
第2に、足場監視は、認識の監視以上のことが重要である。ハイブリッド足場は、ベースラインのモニター足場を一貫して上回り、より弱いモデルでより強力なエージェントを確実に監視することができる。
第3に、人間がLSMモニターと議論し、エージェントの行動に関する最新の判断を得るというループの環境では、標的となる人間の監視が最も効果的であり、FPR=0.01でTPRを約15%改善した。
我々の研究は、MLTの標準的なワークフローを確立し、エージェントの誤動作を監視し検知する際のLLMと人間に対する敵の頑健さの欠如を強調している。
さらなる研究を促進するために、コード、データ、ログをリリースしています。
関連論文リスト
- DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks [12.356708678431183]
現在の防御は、エージェントのChain-of-Thought(CoT)とツール使用アクションを共同で評価し、ユーザの意図との整合性を保証する監視プロトコルに依存している。
これらの監視ベースの防御は、新しいエージェント・アズ・ア・プロキシ・ア・プロキシ・アタックによってバイパス可能であることを実証する。
以上の結果から,現在の監視型エージェント防御は,モデルスケールによらず根本的に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T21:38:38Z) - How does information access affect LLM monitors' ability to detect sabotage? [5.941142438950269]
情報アクセスがLCMモニタの性能に与える影響について検討する。
現代のシステムでは、情報が少ないと性能が良くなることがよく示される。
監視されていることを知らないエージェントが、より簡単に捕まえられることがわかりました。
論文 参考訳(メタデータ) (2026-01-28T23:01:31Z) - AutoMonitor-Bench: Evaluating the Reliability of LLM-Based Misbehavior Monitor [19.39430341586964]
AutoMonitor-Benchは、さまざまなタスクや障害モードにわたる誤動作モニタの信頼性を体系的に評価する最初のベンチマークである。
本研究では,2つの相補的指標(ミスレート(MR)とFalse Alarm Rate(FAR))を用いてモニタの評価を行った。
本研究では、153,581個のサンプルとQwen3-4B-インストラクションからなる大規模トレーニングコーパスを構築し、既知の比較的簡単に構築可能な誤動作データセットによるトレーニングが、目に見えない、より暗黙的な誤動作に対する監視性能を向上させるかどうかを調査する。
論文 参考訳(メタデータ) (2026-01-09T12:09:45Z) - Practical challenges of control monitoring in frontier AI deployments [15.281070904065613]
コントロールモニターは、私たちが完全に信頼していない高度なAIエージェントを監督する上で重要な役割を果たす可能性がある。
これまでの作業では、単純化された設定でのコントロール監視について検討されてきたが、実際のデプロイメントに対する監視のスケーリングには、さらなるダイナミクスが導入されている。
本稿では、これらの課題に対処するための設計選択を分析し、異なるレイテンシーセーフなトレードオフによる3種類のモニタリングに焦点を当てる。
論文 参考訳(メタデータ) (2025-12-15T15:54:36Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - PSG-Agent: Personality-Aware Safety Guardrail for LLM-based Agents [60.23552141928126]
PSG-AgentはLLMベースのエージェントのためのパーソナライズされた動的システムである。
まずPSG-Agentは、安定した特性のために相互作用履歴をマイニングすることでパーソナライズされたガードレールを作成する。
第二に、PSG-Agentは特別なガードでエージェントパイプラインを横断する継続的監視を実装している。
論文 参考訳(メタデータ) (2025-09-28T03:31:59Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents [8.02267424051267]
大規模言語モデル(LLM)は、複雑で長い地平線設定において、自律的なエージェントとしてますます多くデプロイされている。
本研究では,フロンティアLSMの監視を回避し,有害な隠れた目標を達成する能力について検討する。
SHADE(Subtle Harmful Agent Detection & Evaluation)-Arenaを用いて,広い範囲のフロンティアLSMを評価した。
論文 参考訳(メタデータ) (2025-06-17T15:46:15Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems [43.333567687032904]
AgentMonitorはエージェントレベルで統合されたフレームワークで、インプットとアウトプットをキャプチャし、回帰モデルをトレーニングしてタスクのパフォーマンスを予測する統計に変換する。
さらに、悪意のあるエージェントによるセキュリティリスクに対処し、ネガティブな影響を軽減し、MASセキュリティを強化するために、リアルタイムの修正を適用することができる。
論文 参考訳(メタデータ) (2024-08-27T11:24:38Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。