論文の概要: BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments
- arxiv url: http://arxiv.org/abs/2603.25747v1
- Date: Fri, 30 Jan 2026 03:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.041571
- Title: BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments
- Title(参考訳): BeSafe-Bench: 機能的環境における特定エージェントの行動安全リスクの解明
- Authors: Yuxuan Li, Yi Lin, Peng Wang, Shiming Liu, Xuetao Wei,
- Abstract要約: 本研究では,機能的環境における位置エージェントの行動安全リスクを明らかにするベンチマークであるBeSafe-Bench(BSB)を提案する。
BSBは、Web、Mobile、Embodied VLM、Embodied VLAの4つの代表的なドメインをカバーしている。
機能的環境を用いて、安全クリティカルリスクの9つのカテゴリでタスクを増強し、多様な指導空間を構築する。
- 参考スコア(独自算出の注目度): 22.32760987248309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of Large Multimodal Models (LMMs) has enabled agents to perform complex digital and physical tasks, yet their deployment as autonomous decision-makers introduces substantial unintentional behavioral safety risks. However, the absence of a comprehensive safety benchmark remains a major bottleneck, as existing evaluations rely on low-fidelity environments, simulated APIs, or narrowly scoped tasks. To address this gap, we present BeSafe-Bench (BSB), a benchmark for exposing behavioral safety risks of situated agents in functional environments, covering four representative domains: Web, Mobile, Embodied VLM, and Embodied VLA. Using functional environments, we construct a diverse instruction space by augmenting tasks with nine categories of safety-critical risks, and adopt a hybrid evaluation framework that combines rule-based checks with LLM-as-a-judge reasoning to assess real environmental impacts. Evaluating 13 popular agents reveals a concerning trend: even the best-performing agent completes fewer than 40% of tasks while fully adhering to safety constraints, and strong task performance frequently coincides with severe safety violations. These findings underscore the urgent need for improved safety alignment before deploying agentic systems in real-world settings.
- Abstract(参考訳): LMM(Large Multimodal Models)の急速な進化により、エージェントは複雑なデジタルおよび物理的タスクを実行できるようになったが、自律的な意思決定者としての展開は、意図しない行動の安全性の重大なリスクをもたらす。
しかし、既存の評価は、低忠実な環境やシミュレートされたAPI、狭い範囲のタスクに依存しているため、包括的な安全ベンチマークが存在しないことは依然として大きなボトルネックである。
このギャップに対処するため、Web、Mobile、Embodied VLM、Embodied VLAの4つの代表的な領域をカバーする、機能的環境における位置エージェントの行動安全リスクを明らかにするベンチマークであるBeSafe-Bench(BSB)を提案する。
機能的環境を用いて,安全クリティカルリスクの9つのカテゴリでタスクを増強することで多様な指導空間を構築し,ルールベースのチェックとLCM-as-a-judge推論を組み合わせて実際の環境影響を評価するハイブリッド評価フレームワークを採用する。
ベストパフォーマンスエージェントでさえ、安全性の制約を完全に順守しつつ、40%未満のタスクを完了し、強いタスクパフォーマンスは厳しい安全違反とよく一致します。
これらの知見は、エージェントシステムを現実世界の環境にデプロイする前に、緊急に安全アライメントを改善する必要性を浮き彫りにした。
関連論文リスト
- Risky-Bench: Probing Agentic Safety Risks under Real-World Deployment [64.36422334429228]
大規模言語モデル(LLM)は、現実の環境で運用されるエージェントとして、ますます多くデプロイされている。
既存のエージェントの安全性評価は、特定のエージェント設定に合わせて、リスク指向のタスクに依存する。
本稿では,現実の展開に根ざした組織的エージェント安全評価を実現するフレームワークであるR Risky-Benchを提案する。
論文 参考訳(メタデータ) (2026-02-03T04:44:11Z) - SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents [7.975014390527644]
大規模言語モデル(LLM)を利用したエージェントは、高度な計画能力を継承するが、物理世界との直接的な相互作用は安全上の脆弱性を露呈する。
SafeMindBenchは、4つのタスクカテゴリ(Instr-Risk、Env-Risk、Order-Fix、Req-Align)にまたがる5,558のサンプルを備えたマルチモーダルベンチマークである。
SafeMindAgentはモジュール型Planner-Executorアーキテクチャで、3つのケースドセーフモジュールを統合し、安全性制約を推論プロセスに組み込む。
論文 参考訳(メタデータ) (2025-09-30T07:24:04Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - A Framework for Benchmarking and Aligning Task-Planning Safety in LLM-Based Embodied Agents [13.225168384790257]
大規模言語モデル(LLM)は、エンボディエージェント内のタスク計画能力を向上する上で大きな可能性を秘めている。
我々は, LLMをベースとしたエンボディエージェントの挙動を, セーフプランベンチとアライメントのための統合フレームワークであるSafe-BeAlを提案する。
我々の経験的分析によると、敵対的な入力や悪意がなくても、LSMベースのエージェントは安全でない行動を示すことができる。
論文 参考訳(メタデータ) (2025-04-20T15:12:14Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。