論文の概要: Efficient LLM Safety Evaluation through Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2511.06396v1
- Date: Sun, 09 Nov 2025 14:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.920665
- Title: Efficient LLM Safety Evaluation through Multi-Agent Debate
- Title(参考訳): マルチエージェント・ディベートによるLCMの安全性評価
- Authors: Dachuan Lin, Guobin Shen, Zihao Yang, Tianrong Liu, Dongcheng Zhao, Yi Zeng,
- Abstract要約: 本稿では, 批判者, 擁護者, 審査員間の構造化討論を通じて, 小型言語モデル(SLM)を用いた費用効率の高いマルチエージェント判定フレームワークを提案する。
安全判断を厳格に評価するために,大規模な人手によるジェイルブレイクベンチマークであるHAJailBenchを構築した。
本フレームワークは,推定コストを大幅に削減しつつ,HAJailBench上のGPT-4o判定値に匹敵する一致を実現している。
- 参考スコア(独自算出の注目度): 18.818180932660294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety evaluation of large language models (LLMs) increasingly relies on LLM-as-a-Judge frameworks, but the high cost of frontier models limits scalability. We propose a cost-efficient multi-agent judging framework that employs Small Language Models (SLMs) through structured debates among critic, defender, and judge agents. To rigorously assess safety judgments, we construct HAJailBench, a large-scale human-annotated jailbreak benchmark comprising 12,000 adversarial interactions across diverse attack methods and target models. The dataset provides fine-grained, expert-labeled ground truth for evaluating both safety robustness and judge reliability. Our SLM-based framework achieves agreement comparable to GPT-4o judges on HAJailBench while substantially reducing inference cost. Ablation results show that three rounds of debate yield the optimal balance between accuracy and efficiency. These findings demonstrate that structured, value-aligned debate enables SLMs to capture semantic nuances of jailbreak attacks and that HAJailBench offers a reliable foundation for scalable LLM safety evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性評価は、LLM-as-a-Judgeフレームワークにますます依存しているが、フロンティアモデルの高コストはスケーラビリティを制限している。
本稿では, 批判者, 擁護者, 審査員間の構造化討論を通じて, 小型言語モデル(SLM)を用いた費用効率の高いマルチエージェント判定フレームワークを提案する。
安全判断を厳格に評価するために,多種多様な攻撃方法と標的モデルにまたがる12,000の対角的相互作用を含む大規模人手によるジェイルブレイクベンチマークであるHAJailBenchを構築した。
このデータセットは、安全性の堅牢性と判断信頼性の両方を評価するために、きめ細かい専門家ラベル付き真実を提供する。
我々のSLMベースのフレームワークは、推定コストを大幅に削減しつつ、HAJailBench上のGPT-4oの判断に匹敵する合意を達成する。
アブレーションの結果は、3ラウンドの議論が正確性と効率の最適なバランスをもたらすことを示している。
これらの結果は,SLMがジェイルブレイク攻撃のセマンティックなニュアンスを捕捉し,HAJailBenchがスケーラブルなLLM安全性評価のための信頼性の高い基盤を提供することを示す。
関連論文リスト
- Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。