Fugu-MT 論文翻訳(概要): Efficient LLM Safety Evaluation through Multi-Agent Debate

論文の概要: Efficient LLM Safety Evaluation through Multi-Agent Debate

arxiv url: http://arxiv.org/abs/2511.06396v1
Date: Sun, 09 Nov 2025 14:06:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-11 21:18:44.920665
Title: Efficient LLM Safety Evaluation through Multi-Agent Debate
Title（参考訳）: マルチエージェント・ディベートによるLCMの安全性評価
Authors: Dachuan Lin, Guobin Shen, Zihao Yang, Tianrong Liu, Dongcheng Zhao, Yi Zeng,
Abstract要約: 本稿では, 批判者, 擁護者, 審査員間の構造化討論を通じて, 小型言語モデル(SLM)を用いた費用効率の高いマルチエージェント判定フレームワークを提案する。安全判断を厳格に評価するために,大規模な人手によるジェイルブレイクベンチマークであるHAJailBenchを構築した。本フレームワークは,推定コストを大幅に削減しつつ,HAJailBench上のGPT-4o判定値に匹敵する一致を実現している。
参考スコア（独自算出の注目度）: 18.818180932660294
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Safety evaluation of large language models (LLMs) increasingly relies on LLM-as-a-Judge frameworks, but the high cost of frontier models limits scalability. We propose a cost-efficient multi-agent judging framework that employs Small Language Models (SLMs) through structured debates among critic, defender, and judge agents. To rigorously assess safety judgments, we construct HAJailBench, a large-scale human-annotated jailbreak benchmark comprising 12,000 adversarial interactions across diverse attack methods and target models. The dataset provides fine-grained, expert-labeled ground truth for evaluating both safety robustness and judge reliability. Our SLM-based framework achieves agreement comparable to GPT-4o judges on HAJailBench while substantially reducing inference cost. Ablation results show that three rounds of debate yield the optimal balance between accuracy and efficiency. These findings demonstrate that structured, value-aligned debate enables SLMs to capture semantic nuances of jailbreak attacks and that HAJailBench offers a reliable foundation for scalable LLM safety evaluation.
Abstract（参考訳）: 大規模言語モデル(LLM)の安全性評価は、LLM-as-a-Judgeフレームワークにますます依存しているが、フロンティアモデルの高コストはスケーラビリティを制限している。本稿では, 批判者, 擁護者, 審査員間の構造化討論を通じて, 小型言語モデル(SLM)を用いた費用効率の高いマルチエージェント判定フレームワークを提案する。安全判断を厳格に評価するために,多種多様な攻撃方法と標的モデルにまたがる12,000の対角的相互作用を含む大規模人手によるジェイルブレイクベンチマークであるHAJailBenchを構築した。このデータセットは、安全性の堅牢性と判断信頼性の両方を評価するために、きめ細かい専門家ラベル付き真実を提供する。我々のSLMベースのフレームワークは、推定コストを大幅に削減しつつ、HAJailBench上のGPT-4oの判断に匹敵する合意を達成する。アブレーションの結果は、3ラウンドの議論が正確性と効率の最適なバランスをもたらすことを示している。これらの結果は,SLMがジェイルブレイク攻撃のセマンティックなニュアンスを捕捉し,HAJailBenchがスケーラブルなLLM安全性評価のための信頼性の高い基盤を提供することを示す。

論文の概要: Efficient LLM Safety Evaluation through Multi-Agent Debate

関連論文リスト