Fugu-MT 論文翻訳(概要): LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories

論文の概要: LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories

arxiv url: http://arxiv.org/abs/2605.31381v2
Date: Tue, 02 Jun 2026 14:28:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 18:57:50.258312
Title: LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories
Title（参考訳）: LLM審査員、安全基準とハームカテゴリーを不一致で判断
Authors: Krishnapriya Vishnubhotla, Sowmya Vajjala, Akriti Vij, Isar Nejadgholi,
Abstract要約: 大規模言語モデルは、金融などの規制領域における機械によるアドバイスに関連する安全性の問題を特定する上で、信頼性の低い判断である。モデルの判断の不整合度は、選択された安全基準によって大きく異なる。異なる裁判官の間では、ドメイン、安全基準、言語にまたがる同じアウトプットについて高い意見の相違がある。
参考スコア（独自算出の注目度）: 9.66073988835485
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We evaluate the consistency of automated judges in conducting a multi-dimensional safety evaluation in a reference-free setup. Our results indicate that Large Language Models are unreliable judges in identifying safety issues related to machine-generated advice in regulated domains such as finance, although they are more reliable at identifying more overt forms of unsafe/harmful content such as violence. The degree of inconsistency in a model's judgments can vary significantly by the chosen safety criteria and can be impacted by the language of the content and its linguistic style as well. Finally, there is high disagreement among different judges for the same output, across domains, safety criteria, and languages. These findings provide new insights on the practice of using LLMs as evaluators and offer several recommendations for practitioners on how to use automated judges in practical scenarios.
Abstract（参考訳）: 基準のない設定で多次元安全評価を行う際の自動判定器の整合性を評価する。以上の結果から,大規模言語モデルは,暴力などの過度に安全で有害なコンテンツの特定に信頼性が高いものの,金融等の規制領域における機械的アドバイスに関連する安全上の問題を特定する上で,信頼性の低い判断者であることが示唆された。モデルの判断の不整合度は、選択された安全基準によって大きく異なり、内容の言語やその言語スタイルにも影響される。最後に、異なる審査員の間で、同じアウトプット、ドメイン、安全性基準、言語間での意見の相違が大きい。これらの知見は, LLMを評価指標として利用する実践に関する新たな洞察を与え, 実践者に対して, 現実的なシナリオにおける自動判断の使い方を推奨するものである。

関連論文リスト

CASE-Bench: Context-Aware SafEty Benchmark for Large Language Models [12.385397523940277]
大規模言語モデル(LLM)の安全性評価にコンテキストを組み込んだコンテキスト認識型SafEtyベンチマークであるCASE-Benchを紹介する。 Case-Benchは、コンテキスト整合性理論に基づく分類されたクエリに、明確に記述されたコンテキストを割り当てる。本分析は, 安全性評価における文脈の必要性を強調し, 文脈が人間の判断に大きく, 重大な影響があることを明らかにする。
論文参考訳（メタデータ） (2025-01-24T21:55:14Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
SAFETY-J: Evaluating Safety with Critique [24.723999605458832]
SAFETY-Jは、英語と中国語のための二言語生成安全評価器であり、批判に基づく判断である。人間の介入を最小限に抑えて批評の質を客観的に評価する自動メタ評価ベンチマークを構築した。 SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。
論文参考訳（メタデータ） (2024-07-24T08:04:00Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。