論文の概要: HarmMetric Eval: Benchmarking Metrics and Judges for LLM Harmfulness Assessment
- arxiv url: http://arxiv.org/abs/2509.24384v1
- Date: Mon, 29 Sep 2025 07:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.820658
- Title: HarmMetric Eval: Benchmarking Metrics and Judges for LLM Harmfulness Assessment
- Title(参考訳): HarmMetric Eval: LLM Harmfulnessアセスメントのベンチマーク基準と判断
- Authors: Langqi Yang, Tianhang Zheng, Kedong Xiu, Yixuan Chen, Di Wang, Puning Zhao, Zhan Qin, Kui Ren,
- Abstract要約: LLM出力の有害性を評価するための様々な指標と裁判官が伴って、ジェイルブレイク攻撃が急増している。
我々のベンチマークには、多様な有害で有害でないモデル応答と組み合わせた有害なプロンプトの高品質データセットが含まれています。
実験の結果,従来の2つの指標-METEORとROUGE-1-は,モデル応答の有害性を評価する上で,優れたLCMベースの判断器であることがわかった。
- 参考スコア(独自算出の注目度): 38.05649069517889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The alignment of large language models (LLMs) with human values is critical for their safe deployment, yet jailbreak attacks can subvert this alignment to elicit harmful outputs from LLMs. In recent years, a proliferation of jailbreak attacks has emerged, accompanied by diverse metrics and judges to assess the harmfulness of the LLM outputs. However, the absence of a systematic benchmark to assess the quality and effectiveness of these metrics and judges undermines the credibility of the reported jailbreak effectiveness and other risks. To address this gap, we introduce HarmMetric Eval, a comprehensive benchmark designed to support both overall and fine-grained evaluation of harmfulness metrics and judges. Our benchmark includes a high-quality dataset of representative harmful prompts paired with diverse harmful and non-harmful model responses, alongside a flexible scoring mechanism compatible with various metrics and judges. With HarmMetric Eval, our extensive experiments uncover a surprising result: two conventional metrics--METEOR and ROUGE-1--outperform LLM-based judges in evaluating the harmfulness of model responses, challenging prevailing beliefs about LLMs' superiority in this domain. Our dataset is publicly available at https://huggingface.co/datasets/qusgo/HarmMetric_Eval, and the code is available at https://anonymous.4open.science/r/HarmMetric-Eval-4CBE.
- Abstract(参考訳): 大きな言語モデル(LLM)と人間の価値のアライメントは、安全なデプロイメントには不可欠だが、Jailbreak攻撃はこのアライメントを覆してLLMから有害なアウトプットを引き出すことができる。
近年、LLM出力の有害性を評価するための様々な指標や判断を伴うジェイルブレイク攻撃が急増している。
しかしながら、これらの指標の品質と有効性を評価するための体系的なベンチマークが欠如していることは、報告された脱獄効果やその他のリスクの信頼性を損なう。
このギャップに対処するために、有害度指標と審査員の総合的および詳細な評価をサポートするために設計された総合的なベンチマークであるHarmMetric Evalを紹介します。
私たちのベンチマークには、さまざまな有害で有害でないモデル応答と組み合わせた有害なプロンプトの高品質データセットと、さまざまなメトリクスや判断と互換性のある柔軟なスコアリング機構が含まれています。
HarmMetric Evalでは、従来の2つの指標-METEORとROUGE-1-は、モデル応答の有害性を評価する上で優れたLLMベースの審査員であり、この領域におけるLLMの優位性に関する一般的な信念に挑戦する。
私たちのデータセットはhttps://huggingface.co/datasets/qusgo/HarmMetric_Evalで公開されており、コードはhttps://anonymous.4open.science/r/HarmMetric-Eval-4CBEで公開されています。
関連論文リスト
- How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation under the One-Time-Pad-Based Framework [8.76693832650115]
大規模言語モデル(LLM)を評価する際の過大評価が懸念されている。
本稿では,暗号におけるワンタイムパッド暗号化にインスパイアされた動的評価フレームワークArxivRollを提案する。
論文 参考訳(メタデータ) (2025-07-25T12:39:03Z) - Real-World Summarization: When Evaluation Reaches Its Limits [1.4197924572122094]
従来のメトリクス、トレーニング可能なメソッド、LCM-as-a-judgeアプローチを比較します。
その結果、単語のような単純なメトリクスは、人間の判断と驚くほどよく重なることがわかった。
実世界のビジネスへの影響を分析すると、誤った情報やチェック不可能な情報が最大のリスクを生んでいることが分かる。
論文 参考訳(メタデータ) (2025-07-15T17:23:56Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。