論文の概要: SafetyFlow: An Agent-Flow System for Automated LLM Safety Benchmarking
- arxiv url: http://arxiv.org/abs/2508.15526v1
- Date: Thu, 21 Aug 2025 13:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.332039
- Title: SafetyFlow: An Agent-Flow System for Automated LLM Safety Benchmarking
- Title(参考訳): SafetyFlow: LLM自動安全ベンチマークのためのエージェントフローシステム
- Authors: Xiangyang Zhu, Yuan Tian, Chunyi Li, Kaiwei Zhang, Wei Sun, Guangtao Zhai,
- Abstract要約: SafetyFlowは、安全ベンチマークの構築を自動化するために設計されたエージェントフローシステムである。
人間の介入なしに、総合的な安全ベンチマークをわずか4日で自動的に構築できる。
コントリビューションには、最初の完全に自動化されたベンチマークパイプラインと、包括的な安全ベンチマークが含まれています。
- 参考スコア(独自算出の注目度): 41.446821694939615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of large language models (LLMs) has intensified the requirement for reliable safety evaluation to uncover model vulnerabilities. To this end, numerous LLM safety evaluation benchmarks are proposed. However, existing benchmarks generally rely on labor-intensive manual curation, which causes excessive time and resource consumption. They also exhibit significant redundancy and limited difficulty. To alleviate these problems, we introduce SafetyFlow, the first agent-flow system designed to automate the construction of LLM safety benchmarks. SafetyFlow can automatically build a comprehensive safety benchmark in only four days without any human intervention by orchestrating seven specialized agents, significantly reducing time and resource cost. Equipped with versatile tools, the agents of SafetyFlow ensure process and cost controllability while integrating human expertise into the automatic pipeline. The final constructed dataset, SafetyFlowBench, contains 23,446 queries with low redundancy and strong discriminative power. Our contribution includes the first fully automated benchmarking pipeline and a comprehensive safety benchmark. We evaluate the safety of 49 advanced LLMs on our dataset and conduct extensive experiments to validate our efficacy and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な普及により、モデルの脆弱性を明らかにするための信頼性の高い安全性評価の必要性が高まっている。
この目的のために、多数のLLM安全性評価ベンチマークが提案されている。
しかし、既存のベンチマークは一般的に労働集約的な手作業によるキュレーションに依存しており、これは過剰な時間と資源消費を引き起こす。
また、非常に冗長性があり、難易度も限られている。
これらの問題を緩和するために,LLM安全ベンチマークの構築を自動化するために設計された,最初のエージェントフローシステムであるSafetyFlowを導入する。
SafetyFlowは、7つの専門エージェントを編成することで、人間の介入なしに4日間で包括的な安全ベンチマークを自動的に構築し、時間とリソースコストを大幅に削減することができる。
汎用ツールを備えたSafetyFlowのエージェントは、人的専門知識を自動パイプラインに統合しながら、プロセスとコストの制御性を保証する。
最後に構築されたデータセットであるSafetyFlowBenchは、冗長性が低く、識別力の強い23,446のクエリを含んでいる。
コントリビューションには、最初の完全に自動化されたベンチマークパイプラインと、包括的な安全ベンチマークが含まれています。
我々は、データセット上で49個の高度なLCMの安全性を評価し、我々の有効性と効率性を検証するための広範囲な実験を行った。
関連論文リスト
- SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.97472024483841]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。
当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。
最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文 参考訳(メタデータ) (2025-06-13T13:54:30Z) - AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [41.000042817113645]
sysは、トレーニングなし、メモリ拡張推論フレームワークである。
sysは、LLMが適応的に構造化された意味的特徴を抽出することで経験記憶を構築する。
Dataは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-31T17:10:23Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。