論文の概要: BraveGuard: From Open-World Threats to Safer Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2606.01166v1
- Date: Sun, 31 May 2026 11:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.292516
- Title: BraveGuard: From Open-World Threats to Safer Computer-Use Agents
- Title(参考訳): BraveGuard: オープンワールドの脅威からコンピュータ利用エージェントの救いへ
- Authors: Yunhao Feng, Yifan Ding, Xiaohu Du, Ming Wen, Xinhao Deng, Yanming Guo, Yuxiang Xie, Baihui Zheng, Yingshui Tan, Yige Li, Yutao Wu, Yixu Wang, Kerui Cao, Wenke Huang, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: BraveGuardは、オープンワールドの脅威信号とリアルエージェントの軌道からモデルを訓練するための自己進化型防衛フレームワークである。
我々は、Qwen3-GuardやLlama-Guardなど複数のガードバックボーンをトレーニングしてBraveGuardをインスタンス化し、トラジェクトリレベルのエージェントセーフティベンチマークの結果のガードを評価する。
- 参考スコア(独自算出の注目度): 68.38397514360227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents extend language models from text generation to sustained interaction with files, terminals, browsers, and external tools. This shift creates safety risks that are difficult to detect from isolated prompts or final responses, because harm often emerges only through multi-step execution traces whose individual actions appear locally benign. We introduce BraveGuard, a self-evolving defense framework for training guard models from open-world threat signals and realistic agent trajectories. BraveGuard mines recent research sources to identify emerging risks and attack patterns, instantiates them as executable computer-use tasks, collects agent rollouts, and derives trajectory-level supervision for guard model training. As new threats and validation failures appear, the pipeline can be repeated, yielding an adaptive defense loop rather than a static, benchmark-driven training process. We instantiate BraveGuard by training multiple guard backbones, including Qwen3-Guard and Llama-Guard variants, and evaluate the resulting guards on trajectory-level agent-safety benchmarks. BraveGuard consistently improves safety detection across computer-use trajectories. On AgentHazard, it substantially improves detection accuracy over off-the-shelf guard models, with accuracy increasing from 38.79% to 82.38% under the averaged guard-model setting. These results show that guard supervision grounded in open-world threat discovery and realistic agent execution can improve safety monitoring beyond fixed taxonomies and synthetic prompt-level data. BraveGuard offers a scalable path toward adaptive defenses for computer-use agents facing evolving real-world risks.
- Abstract(参考訳): コンピュータ利用エージェントは、テキスト生成からファイル、端末、ブラウザ、外部ツールとの持続的な相互作用まで言語モデルを拡張する。
このシフトは、独立したプロンプトや最終応答から検出するのが難しい安全リスクを生み出す。
オープンワールドの脅威信号とリアルエージェントの軌道からガードモデルを訓練するための自己進化型防衛フレームワークであるBraveGuardを紹介する。
BraveGuardは最近の研究ソースを掘り下げて、新たなリスクと攻撃パターンを特定し、それらを実行可能なコンピュータ使用タスクとしてインスタンス化し、エージェントロールアウトを収集し、ガードモデルトレーニングのための軌道レベルの監視を導出する。
新しい脅威や検証の失敗が現れると、パイプラインを繰り返すことができ、静的なベンチマーク駆動のトレーニングプロセスではなく、適応的な防御ループが得られる。
我々は、Qwen3-GuardやLlama-Guardなど複数のガードバックボーンをトレーニングしてBraveGuardをインスタンス化し、トラジェクトリレベルのエージェントセーフティベンチマークの結果のガードを評価する。
BraveGuardは、コンピュータ使用軌跡の安全検出を一貫して改善している。
AgentHazardでは、平均ガードモデル設定で38.79%から82.38%まで精度が向上し、オフザシェルフガードモデルよりも検出精度が大幅に向上した。
これらの結果から,オープンワールドの脅威発見と現実的なエージェント実行に根ざした監視監視が,固定された分類と合成プロンプトレベルのデータを超えた安全監視を改善することが示唆された。
BraveGuardは、進化する現実世界のリスクに直面しているコンピュータ使用エージェントに対して、適応防御へのスケーラブルなパスを提供する。
関連論文リスト
- WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。
システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。
本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:50:35Z) - MirrorGuard: Toward Secure Computer-Use Agents via Simulation-to-Real Reasoning Correction [16.58862217164395]
実世界のCUAセキュリティを改善するためにシミュレーションベースのトレーニングを利用するプラグアンドプレイディフェンスフレームワークであるMirrorGuardを紹介する。
MirrorGuard氏は、CUAの安全でない推論チェーンをインターセプトし、修正して、安全でないアクションを生成し、実行することを学ぶ。
我々の研究は、シミュレーションによる防御は、エージェントの基本的な実用性を維持しながら、堅牢で現実世界の保護を提供することができることを証明している。
論文 参考訳(メタデータ) (2026-01-19T08:32:09Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [66.72332011814183]
CoreGuardは、エッジデバイスにデプロイされるプロプライエタリな大規模言語モデル(LLM)の計算と通信効率の保護方法である。
CoreGuardは効率的な保護プロトコルを使用して、計算オーバーヘッドを削減し、伝搬プロトコルによる通信オーバーヘッドを最小限にする。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。