論文の概要: Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs
- arxiv url: http://arxiv.org/abs/2601.19507v1
- Date: Tue, 27 Jan 2026 11:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.304435
- Title: Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs
- Title(参考訳): 自動安全ベンチマーク:LVLM用マルチエージェントパイプライン
- Authors: Xiangyang Zhu, Yuan Tian, Zicheng Zhang, Qi Jia, Chunyi Li, Renrui Zhang, Heng Li, Zongrui Wang, Wei Sun,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、クロスモーダルタスクにおいて顕著な能力を示すが、重大な安全性上の課題に直面している。
既存のベンチマークは、労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。
LVLMの安全性ベンチマークのための最初の自動システムであるVLSafetyBencherを提案する。
- 参考スコア(独自算出の注目度): 61.01470415470677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) exhibit remarkable capabilities in cross-modal tasks but face significant safety challenges, which undermine their reliability in real-world applications. Efforts have been made to build LVLM safety evaluation benchmarks to uncover their vulnerability. However, existing benchmarks are hindered by their labor-intensive construction process, static complexity, and limited discriminative power. Thus, they may fail to keep pace with rapidly evolving models and emerging risks. To address these limitations, we propose VLSafetyBencher, the first automated system for LVLM safety benchmarking. VLSafetyBencher introduces four collaborative agents: Data Preprocessing, Generation, Augmentation, and Selection agents to construct and select high-quality samples. Experiments validates that VLSafetyBencher can construct high-quality safety benchmarks within one week at a minimal cost. The generated benchmark effectively distinguish safety, with a safety rate disparity of 70% between the most and least safe models.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、クロスモーダルなタスクにおいて顕著な能力を示すが、現実のアプリケーションでは信頼性を損なう重大な安全上の課題に直面している。
脆弱性を明らかにするため、LVLMの安全性評価ベンチマークを構築する努力がなされている。
しかし、既存のベンチマークは労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。
したがって、急速に進化するモデルや新たなリスクに追随しない可能性がある。
これらの制約に対処するため、LVLMの安全性ベンチマークのための最初の自動化システムであるVLSafetyBencherを提案する。
VLSafetyBencherは、データ前処理、生成、拡張、選択の4つの協調エージェントを導入し、高品質なサンプルを構築し、選択する。
VLSafetyBencherは最低限のコストで1週間以内に高品質な安全ベンチマークを構築することができることを検証している。
生成されたベンチマークは安全性を効果的に区別し、最も安全でないモデルと最も安全でないモデルの間での安全性の相違は70%である。
関連論文リスト
- DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents [12.054307827384415]
大きな言語モデル(LLM)はますます顕著になり、重要なドメインへの信頼性の高いデプロイメントを厳しく制限しています。
本稿では,LLMを入力レベルと出力レベルの両方で保護する新しい安全応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T03:04:35Z) - SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents [7.975014390527644]
大規模言語モデル(LLM)を利用したエージェントは、高度な計画能力を継承するが、物理世界との直接的な相互作用は安全上の脆弱性を露呈する。
SafeMindBenchは、4つのタスクカテゴリ(Instr-Risk、Env-Risk、Order-Fix、Req-Align)にまたがる5,558のサンプルを備えたマルチモーダルベンチマークである。
SafeMindAgentはモジュール型Planner-Executorアーキテクチャで、3つのケースドセーフモジュールを統合し、安全性制約を推論プロセスに組み込む。
論文 参考訳(メタデータ) (2025-09-30T07:24:04Z) - SafetyFlow: An Agent-Flow System for Automated LLM Safety Benchmarking [41.446821694939615]
SafetyFlowは、安全ベンチマークの構築を自動化するために設計されたエージェントフローシステムである。
人間の介入なしに、総合的な安全ベンチマークをわずか4日で自動的に構築できる。
コントリビューションには、最初の完全に自動化されたベンチマークパイプラインと、包括的な安全ベンチマークが含まれています。
論文 参考訳(メタデータ) (2025-08-21T13:00:53Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。