Fugu-MT 論文翻訳(概要): RAS-Eval: A Comprehensive Benchmark for Security Evaluation of LLM Agents in Real-World Environments

論文の概要: RAS-Eval: A Comprehensive Benchmark for Security Evaluation of LLM Agents in Real-World Environments

arxiv url: http://arxiv.org/abs/2506.15253v1
Date: Wed, 18 Jun 2025 08:30:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.595753
Title: RAS-Eval: A Comprehensive Benchmark for Security Evaluation of LLM Agents in Real-World Environments
Title（参考訳）: RAS-Eval: 実環境におけるLLMエージェントのセキュリティ評価のための総合ベンチマーク
Authors: Yuchuan Fu, Xiaohan Yuan, Dongxia Wang,
Abstract要約: RAS-Evalは、シミュレーションと実世界のツール実行の両方をサポートする包括的なセキュリティベンチマークである。さまざまなシナリオにまたがって,最先端の言語モデル (LLM) エージェントを6つ評価した。攻撃によりエージェントタスク完了率(TCR)は平均36.78%減少し、学術的な環境では85.65%の成功率を達成した。
参考スコア（独自算出の注目度）: 5.3532199508293745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid deployment of Large language model (LLM) agents in critical domains like healthcare and finance necessitates robust security frameworks. To address the absence of standardized evaluation benchmarks for these agents in dynamic environments, we introduce RAS-Eval, a comprehensive security benchmark supporting both simulated and real-world tool execution. RAS-Eval comprises 80 test cases and 3,802 attack tasks mapped to 11 Common Weakness Enumeration (CWE) categories, with tools implemented in JSON, LangGraph, and Model Context Protocol (MCP) formats. We evaluate 6 state-of-the-art LLMs across diverse scenarios, revealing significant vulnerabilities: attacks reduced agent task completion rates (TCR) by 36.78% on average and achieved an 85.65% success rate in academic settings. Notably, scaling laws held for security capabilities, with larger models outperforming smaller counterparts. Our findings expose critical risks in real-world agent deployments and provide a foundational framework for future security research. Code and data are available at https://github.com/lanzer-tree/RAS-Eval.
Abstract（参考訳）: 医療や金融といった重要なドメインに大規模言語モデル(LLM)エージェントを迅速に配置するには、堅牢なセキュリティフレームワークが必要である。動的環境におけるこれらのエージェントの標準評価ベンチマークの欠如に対処するため、シミュレーションと実世界のツール実行の両方をサポートする総合的なセキュリティベンチマークであるRAS-Evalを導入する。 RAS-Evalは80のテストケースと3,802のアタックタスクを11のCommon Weakness Enumeration (CWE)カテゴリにマッピングし、JSON、LangGraph、Model Context Protocol (MCP)フォーマットで実装されている。エージェントタスク完了率(TCR)を平均36.78%削減し,85.65%の成功率を達成した。特に、セキュリティ機能に関するスケーリングの法則は、より大型のモデルの方が、より小型のモデルよりも優れている。本研究は,現実世界のエージェント展開における重大なリスクを明らかにし,今後のセキュリティ研究の基盤となる枠組みを提供する。コードとデータはhttps://github.com/lanzer-tree/RAS-Eval.comで公開されている。

関連論文リスト

SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文参考訳（メタデータ） (2026-02-02T17:20:30Z)
ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。 ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文参考訳（メタデータ） (2026-01-15T08:23:38Z)
AgentSentinel: An End-to-End and Real-Time Security Defense Framework for Computer-Use Agents [7.99316950952212]
LLM(Large Language Models)は、コンピュータ利用エージェントにますます統合されている。 LLMは意図しないツールコマンドや誤った入力を発行し、潜在的に有害な操作を引き起こす可能性がある。我々は,セキュリティの脅威を軽減するために,エンド・ツー・エンドのリアルタイム防衛フレームワークであるAgentSentinelを提案する。
論文参考訳（メタデータ） (2025-09-09T13:59:00Z)
Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。 MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文参考訳（メタデータ） (2025-07-17T05:46:27Z)
Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文参考訳（メタデータ） (2025-07-08T18:24:28Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文参考訳（メタデータ） (2025-06-17T10:55:17Z)
SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.97472024483841]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文参考訳（メタデータ） (2025-06-13T13:54:30Z)
CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities [6.752938800468733]
大規模言語モデル(LLM)エージェントは、サイバー攻撃を自律的に行う能力が高まっている。既存のベンチマークは、抽象化されたCapture the Flagコンペティションに制限されているか、包括的なカバレッジが欠如しているため、不足している。私たちはCVE-Benchを紹介します。CVE-Benchは、クリティカルシヴァリティ・コモン・脆弱性と露出に基づく、現実世界のサイバーセキュリティベンチマークです。
論文参考訳（メタデータ） (2025-03-21T17:32:32Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.62654499260479]
我々は,LSMベースのエージェントの攻撃と防御を形式化し,ベンチマークし,評価するフレームワークであるAgen Security Bench (ASB)を紹介した。 ASBをベースとして、インジェクション攻撃10件、メモリ中毒攻撃、新しいPlan-of-Thoughtバックドア攻撃4件、混合攻撃11件をベンチマークした。ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文参考訳（メタデータ） (2024-10-03T16:30:47Z)
EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文参考訳（メタデータ） (2024-08-08T13:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。