論文の概要: SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2509.26100v1
- Date: Tue, 30 Sep 2025 11:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.112437
- Title: SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs
- Title(参考訳): SafeEvalAgent: LLMのエージェント的・自己進化的安全性評価に向けて
- Authors: Yixu Wang, Xin Wang, Yang Yao, Xinyuan Li, Yan Teng, Xingjun Ma, Yingchun Wang,
- Abstract要約: 本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
- 参考スコア(独自算出の注目度): 37.82193156438782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid integration of Large Language Models (LLMs) into high-stakes domains necessitates reliable safety and compliance evaluation. However, existing static benchmarks are ill-equipped to address the dynamic nature of AI risks and evolving regulations, creating a critical safety gap. This paper introduces a new paradigm of agentic safety evaluation, reframing evaluation as a continuous and self-evolving process rather than a one-time audit. We then propose a novel multi-agent framework SafeEvalAgent, which autonomously ingests unstructured policy documents to generate and perpetually evolve a comprehensive safety benchmark. SafeEvalAgent leverages a synergistic pipeline of specialized agents and incorporates a Self-evolving Evaluation loop, where the system learns from evaluation results to craft progressively more sophisticated and targeted test cases. Our experiments demonstrate the effectiveness of SafeEvalAgent, showing a consistent decline in model safety as the evaluation hardens. For instance, GPT-5's safety rate on the EU AI Act drops from 72.50% to 36.36% over successive iterations. These findings reveal the limitations of static assessments and highlight our framework's ability to uncover deep vulnerabilities missed by traditional methods, underscoring the urgent need for dynamic evaluation ecosystems to ensure the safe and responsible deployment of advanced AI.
- Abstract(参考訳): 大規模言語モデル(LLM)を高レベルなドメインに迅速に統合するには、信頼性の高い安全性とコンプライアンス評価が必要である。
しかし、既存の静的ベンチマークは、AIリスクのダイナミックな性質と規制の進化に対処しておらず、重大な安全性のギャップを形成している。
本稿では,1回の監査ではなく,継続的かつ自己進化的なプロセスとしてのエージェント安全性評価の新たなパラダイムを提案する。
次に、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
SafeEvalAgentは、専門エージェントのシナジスティックパイプラインを活用し、自己進化評価ループを組み込んで、システムが評価結果から学習し、段階的に洗練され、ターゲットとするテストケースを構築する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
例えば、GPT-5のEU AI法における安全性率は、連続した反復に対して72.50%から36.36%に低下している。
これらの発見は静的アセスメントの限界を明らかにし、我々のフレームワークが従来の手法で見逃されていた深い脆弱性を解明する能力を強調し、高度なAIの安全で責任あるデプロイを保証するために、動的アセスメントエコシステムが緊急に必要であることを示している。
関連論文リスト
- IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。