論文の概要: Risky-Bench: Probing Agentic Safety Risks under Real-World Deployment
- arxiv url: http://arxiv.org/abs/2602.03100v1
- Date: Tue, 03 Feb 2026 04:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.247276
- Title: Risky-Bench: Probing Agentic Safety Risks under Real-World Deployment
- Title(参考訳): リスク・ベンチ:現実の展開下でのエージェント的安全リスクを調査
- Authors: Jingnan Zheng, Yanzhen Luo, Jingjun Xu, Bingnan Liu, Yuxin Chen, Chenhang Cui, Gelei Deng, Chaochao Lu, Xiang Wang, An Zhang, Tat-Seng Chua,
- Abstract要約: 大規模言語モデル(LLM)は、現実の環境で運用されるエージェントとして、ますます多くデプロイされている。
既存のエージェントの安全性評価は、特定のエージェント設定に合わせて、リスク指向のタスクに依存する。
本稿では,現実の展開に根ざした組織的エージェント安全評価を実現するフレームワークであるR Risky-Benchを提案する。
- 参考スコア(独自算出の注目度): 64.36422334429228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed as agents that operate in real-world environments, introducing safety risks beyond linguistic harm. Existing agent safety evaluations rely on risk-oriented tasks tailored to specific agent settings, resulting in limited coverage of safety risk space and failing to assess agent safety behavior during long-horizon, interactive task execution in complex real-world deployments. Moreover, their specialization to particular agent settings limits adaptability across diverse agent configurations. To address these limitations, we propose Risky-Bench, a framework that enables systematic agent safety evaluation grounded in real-world deployment. Risky-Bench organizes evaluation around domain-agnostic safety principles to derive context-aware safety rubrics that delineate safety space, and systematically evaluates safety risks across this space through realistic task execution under varying threat assumptions. When applied to life-assist agent settings, Risky-Bench uncovers substantial safety risks in state-of-the-art agents under realistic execution conditions. Moreover, as a well-structured evaluation pipeline, Risky-Bench is not confined to life-assist scenarios and can be adapted to other deployment settings to construct environment-specific safety evaluations, providing an extensible methodology for agent safety assessment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実の環境で活動するエージェントとしてますます多くデプロイされ、言語的危害を超えた安全性のリスクがもたらされる。
既存のエージェントの安全性評価は、特定のエージェント設定に合わせて調整されたリスク指向のタスクに依存しており、結果として、安全リスク空間のカバーが限定され、複雑な現実世界のデプロイメントにおいて、長期的かつ対話的なタスク実行中にエージェントの安全性の振る舞いを評価することができない。
さらに、特定のエージェント設定への特殊化により、さまざまなエージェント設定への適応性が制限される。
これらの制約に対処するため,現実世界の展開に根ざした,組織的なエージェント安全性評価を可能にするフレームワークである Risky-Bench を提案する。
Risky-Benchは、ドメインに依存しない安全原則に関する評価を組織し、安全空間を規定するコンテキスト対応の安全ルーリックを導き出し、様々な脅威前提の下での現実的なタスク実行を通じて、この分野における安全リスクを体系的に評価する。
ライフアシストエージェントの設定に適用すると、リスク・ベンチは現実的な実行条件下での最先端のエージェントの重大な安全リスクを明らかにする。
さらに、よく構造化された評価パイプラインとして、Resty-Benchはライフアシストシナリオに限定されておらず、環境固有の安全性評価を構築するために他のデプロイメント設定に適応することができ、エージェントの安全性評価のための拡張可能な方法論を提供する。
関連論文リスト
- OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards [55.76285458905577]
大規模言語モデル(LLM)は、意図的な安全確保努力にもかかわらず、脆弱性を示し続けている。
ポリシー違反のリスクから保護するために、外部ガードモデルによるシステムレベルのモデレーションが一般的な緩和戦略として現れている。
我々は、特定の安全ポリシーの範囲内で堅牢な保護を提供するためのガイド付き安全推論を行う適応型推論ベースの安全ガードであるRSafeを提案する。
論文 参考訳(メタデータ) (2025-06-09T13:20:04Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - A Safe Exploration Strategy for Model-free Task Adaptation in Safety-constrained Grid Environments [2.5037136114892267]
安全に制約された環境では、教師なしの探査や非最適政策を利用すると、エージェントは望ましくない状態に陥る可能性がある。
モデルフリーエージェントが安全制約に固執しながら環境と対話できるグリッド環境をナビゲートするための新しい探索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T04:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。