論文の概要: RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration
- arxiv url: http://arxiv.org/abs/2509.25271v1
- Date: Sun, 28 Sep 2025 09:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.223502
- Title: RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration
- Title(参考訳): RADAR:役割特化コラボレーションによるLCMの安全性評価のためのリスク対応動的マルチエージェントフレームワーク
- Authors: Xiuyuan Chen, Jian Zhao, Yuchen Yuan, Tianle Zhang, Huilin Zhou, Zheng Zhu, Ping Hu, Linghe Kong, Chi Zhang, Weiran Huang, Xuelong Li,
- Abstract要約: 大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
- 参考スコア(独自算出の注目度): 81.38705556267917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing safety evaluation methods for large language models (LLMs) suffer from inherent limitations, including evaluator bias and detection failures arising from model homogeneity, which collectively undermine the robustness of risk evaluation processes. This paper seeks to re-examine the risk evaluation paradigm by introducing a theoretical framework that reconstructs the underlying risk concept space. Specifically, we decompose the latent risk concept space into three mutually exclusive subspaces: the explicit risk subspace (encompassing direct violations of safety guidelines), the implicit risk subspace (capturing potential malicious content that requires contextual reasoning for identification), and the non-risk subspace. Furthermore, we propose RADAR, a multi-agent collaborative evaluation framework that leverages multi-round debate mechanisms through four specialized complementary roles and employs dynamic update mechanisms to achieve self-evolution of risk concept distributions. This approach enables comprehensive coverage of both explicit and implicit risks while mitigating evaluator bias. To validate the effectiveness of our framework, we construct an evaluation dataset comprising 800 challenging cases. Extensive experiments on our challenging testset and public benchmarks demonstrate that RADAR significantly outperforms baseline evaluation methods across multiple dimensions, including accuracy, stability, and self-evaluation risk sensitivity. Notably, RADAR achieves a 28.87% improvement in risk identification accuracy compared to the strongest baseline evaluation method.
- Abstract(参考訳): 大規模言語モデル(LLM)の既存の安全性評価手法は、モデル均質性に起因する評価器バイアスや検出失敗など固有の制約に悩まされており、リスク評価プロセスの堅牢性を損なう。
本稿では,リスク概念空間を再構築する理論的枠組みを導入することにより,リスク評価パラダイムを再検討する。
具体的には、潜在リスク概念空間を、明示的なリスク部分空間(安全ガイドラインの直接的な違反を回避)、暗黙的なリスク部分空間(識別のために文脈的推論を必要とする潜在的悪意のあるコンテンツをキャプチャ)、非リスク部分空間の3つの排他的部分空間に分解する。
さらに,4つの特別な補完的役割を通じて,複数ラウンドの議論機構を活用するマルチエージェント協調評価フレームワークであるRADARを提案し,リスク概念分布の自己進化を実現するために動的更新機構を用いる。
このアプローチは、明示的リスクと暗黙的リスクの両方を包括的にカバーし、評価者のバイアスを軽減する。
本フレームワークの有効性を検証するため,800件の課題からなる評価データセットを構築した。
我々の挑戦的なテストセットと公開ベンチマークに関する大規模な実験は、RADARが精度、安定性、自己評価リスク感度など、複数の次元にわたるベースライン評価手法を著しく上回っていることを示している。
特に、RADARは最強基準評価法と比較して、リスク識別精度が28.87%向上している。
関連論文リスト
- Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation [51.19622266249408]
MultiTrust-XはMLLMの信頼性問題を評価、分析、緩和するためのベンチマークである。
分類に基づいて、MultiTrust-Xには32のタスクと28のキュレートデータセットが含まれている。
私たちの実験は、現在のモデルに重大な脆弱性を明らかにします。
論文 参考訳(メタデータ) (2025-08-21T09:00:01Z) - Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。
19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。
我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文 参考訳(メタデータ) (2025-05-26T08:49:19Z) - Adapting Probabilistic Risk Assessment for AI [0.0]
汎用人工知能(AI)システムは、緊急リスク管理の課題を示す。
現在の手法は、しばしば選択的なテストとリスク優先順位に関する未文書の仮定に依存します。
本稿では,AIフレームワークの確率的リスクアセスメント(PRA)を紹介する。
論文 参考訳(メタデータ) (2025-04-25T17:59:14Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。
分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。
より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-03T20:25:41Z) - Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。
提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。
我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-11-29T14:22:51Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。