論文の概要: HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization
- arxiv url: http://arxiv.org/abs/2508.04010v1
- Date: Wed, 06 Aug 2025 01:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.499777
- Title: HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization
- Title(参考訳): HarmonyGuard:Adaptive Policy EnhancementとDual-Objective OptimizationによるWebエージェントの安全性と実用に向けて
- Authors: Yurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang,
- Abstract要約: 大規模な言語モデルにより、オープンなWeb環境でWebエージェントが自律的にタスクを実行することができる。
Web内の隠れた脅威が進化するにつれて、Webエージェントは、長時間の操作においてタスクパフォーマンスと新たなリスクのバランスをとるという課題に直面します。
我々は,政策強化と客観的最適化を活用し,実用性と安全性を両立させる多エージェント協調フレームワークであるHarmonyGuardを提案する。
- 参考スコア(独自算出の注目度): 25.604531199645688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models enable agents to autonomously perform tasks in open web environments. However, as hidden threats within the web evolve, web agents face the challenge of balancing task performance with emerging risks during long-sequence operations. Although this challenge is critical, current research remains limited to single-objective optimization or single-turn scenarios, lacking the capability for collaborative optimization of both safety and utility in web environments. To address this gap, we propose HarmonyGuard, a multi-agent collaborative framework that leverages policy enhancement and objective optimization to jointly improve both utility and safety. HarmonyGuard features a multi-agent architecture characterized by two fundamental capabilities: (1) Adaptive Policy Enhancement: We introduce the Policy Agent within HarmonyGuard, which automatically extracts and maintains structured security policies from unstructured external documents, while continuously updating policies in response to evolving threats. (2) Dual-Objective Optimization: Based on the dual objectives of safety and utility, the Utility Agent integrated within HarmonyGuard performs the Markovian real-time reasoning to evaluate the objectives and utilizes metacognitive capabilities for their optimization. Extensive evaluations on multiple benchmarks show that HarmonyGuard improves policy compliance by up to 38% and task completion by up to 20% over existing baselines, while achieving over 90% policy compliance across all tasks. Our project is available here: https://github.com/YurunChen/HarmonyGuard.
- Abstract(参考訳): 大きな言語モデルは、オープンなWeb環境でエージェントが自律的にタスクを実行することを可能にする。
しかし、Web内の隠れた脅威が進化するにつれて、Webエージェントは、長時間の操作においてタスクパフォーマンスと新たなリスクのバランスをとるという課題に直面している。
この課題は重要であるが、現在の研究はシングルオブジェクト最適化やシングルターンシナリオに限られており、Web環境における安全性とユーティリティの両方を協調的に最適化する能力が欠如している。
このギャップに対処するために,政策強化と客観的最適化を活用し,実用性と安全性を両立させるマルチエージェント協調フレームワークであるHarmonyGuardを提案する。
適応的ポリシー強化: 脅威の進展に応じてポリシーを継続的に更新しながら、構造化されていない外部文書から構造化されたセキュリティポリシーを自動的に抽出および維持するポリシーエージェントを導入する。
2) 二重目的最適化: 安全性とユーティリティの両目的に基づいて, ハーモニーガードに組み込まれたユーティリティエージェントは, マルコフ的リアルタイム推論を行い, 目的を評価し, メタ認知能力を利用して最適化を行う。
複数のベンチマークに対する大規模な評価は、HarmonyGuardがポリシーコンプライアンスを最大38%改善し、タスク完了を最大20%改善し、すべてのタスクで90%以上のポリシーコンプライアンスを実現していることを示している。
私たちのプロジェクトは、https://github.com/YurunChen/HarmonyGuard.comで利用可能です。
関連論文リスト
- CyGATE: Game-Theoretic Cyber Attack-Defense Engine for Patch Strategy Optimization [73.13843039509386]
本稿では,攻撃と防御の相互作用をモデル化するゲーム理論フレームワークCyGATEを提案する。
CyGATEはサイバー・キル・チェーン(Cyber Kill Chain)の段階にわたって、サイバー紛争を部分的に観察可能なゲーム(POSG)として捉えている。
フレームワークの柔軟なアーキテクチャは、マルチエージェントシナリオの拡張を可能にする。
論文 参考訳(メタデータ) (2025-08-01T09:53:06Z) - FedStrategist: A Meta-Learning Framework for Adaptive and Robust Aggregation in Federated Learning [0.10241134756773229]
フェデレートラーニング(FL)は、プライバシ保護のための協調AIのパラダイムを提供するが、その分散された性質は、毒殺攻撃をモデル化するための重大な脆弱性を生み出している。
本稿では、ロバストアグリゲーションをリアルタイムでコストを意識した制御問題として再編成する新しいメタラーニングフレームワークであるFedStrategistを紹介する。
論文 参考訳(メタデータ) (2025-07-18T18:53:26Z) - Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Automatic Selection of Protections to Mitigate Risks Against Software Applications [2.5874041837241304]
本稿では,MATEリスクを軽減するためのソフトウェア保護の自動選択手法を提案する。
保護決定に関わる重要な要素を定式化し,ゲーム理論モデルを用いて保護プロセスの枠組みを定式化する。
提案手法は,概念実証と専門家による評価によって検証する。
論文 参考訳(メタデータ) (2025-06-23T10:11:23Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z) - Progent: Programmable Privilege Control for LLM Agents [46.49787947705293]
LLMエージェントの最初の特権制御機構であるProgentを紹介する。
コアとなるのは、エージェント実行中に適用される権限制御ポリシを柔軟に表現するためのドメイン固有言語である。
これにより、エージェント開発者とユーザは、特定のユースケースに対して適切なポリシーを作成し、セキュリティを保証するために決定的にそれらを強制することができる。
論文 参考訳(メタデータ) (2025-04-16T01:58:40Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。