論文の概要: Evaluating Metrics for Safety with LLM-as-Judges
- arxiv url: http://arxiv.org/abs/2512.15617v1
- Date: Wed, 17 Dec 2025 17:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.076788
- Title: Evaluating Metrics for Safety with LLM-as-Judges
- Title(参考訳): LLM-as-Judgesによる安全基準の評価
- Authors: Kester Clegg, Richard Hawkins, Ibrahim Habli, Tom Lawton,
- Abstract要約: 本稿では、多くの自然言語処理タスクから決定論的評価を得ることはできないが、重み付けされたメトリクスのバスケットを採用することで、評価におけるエラーのリスクを低減することができると主張している。
- 参考スコア(独自算出の注目度): 1.93892819796757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs (Large Language Models) are increasingly used in text processing pipelines to intelligently respond to a variety of inputs and generation tasks. This raises the possibility of replacing human roles that bottleneck existing information flows, either due to insufficient staff or process complexity. However, LLMs make mistakes and some processing roles are safety critical. For example, triaging post-operative care to patients based on hospital referral letters, or updating site access schedules in nuclear facilities for work crews. If we want to introduce LLMs into critical information flows that were previously performed by humans, how can we make them safe and reliable? Rather than make performative claims about augmented generation frameworks or graph-based techniques, this paper argues that the safety argument should focus on the type of evidence we get from evaluation points in LLM processes, particularly in frameworks that employ LLM-as-Judges (LaJ) evaluators. This paper argues that although we cannot get deterministic evaluations from many natural language processing tasks, by adopting a basket of weighted metrics it may be possible to lower the risk of errors within an evaluation, use context sensitivity to define error severity and design confidence thresholds that trigger human review of critical LaJ judgments when concordance across evaluators is low.
- Abstract(参考訳): LLM(Large Language Models)は、テキスト処理パイプラインにおいて、様々な入力や生成タスクにインテリジェントに応答するために、ますます使われている。
これにより、スタッフ不足やプロセスの複雑さのために、既存の情報フローをボトルネックにするヒューマンロールを置き換える可能性がある。
しかし、LSMはミスを犯し、いくつかの処理の役割は安全に重要である。
例えば、病院の紹介状に基づいて患者の術後ケアをトリアージしたり、作業員のための核施設のアクセススケジュールを更新したりしている。
人類が以前に行っていた重要な情報フローにLSMを導入したい場合、どうすれば安全で信頼性の高いものにできるでしょうか?
本稿では,LLMプロセスの評価点から得られる証拠の種類,特にLLM-as-Judges (LaJ) 評価器を用いたフレームワークに焦点をあてる。
本稿では、多くの自然言語処理タスクから決定論的評価を得ることはできないが、重み付けされたメトリクスのバスケットを採用することで、評価におけるエラーのリスクを低減でき、コンテキスト感度を用いてエラーの重大度を定義し、評価者間での一致度が低い場合に重要なLaJ判断の人間によるレビューを引き起こす設計信頼閾値を利用することができると論じる。
関連論文リスト
- AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [48.925168866726814]
AgentAuditorは、トレーニングなし、メモリ拡張推論フレームワークである。
ASSEBenchは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-31T17:10:23Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation [0.5070610131852027]
大規模言語モデル(LLM)は、事前に定義された物語に従って偽ニュース記事を生成するために効果的に誤用することができる。
本研究は,近年のオープンかつクローズドなLCMの脆弱性と,パーソナライズされた偽情報ニュースを英語で生成する意思を評価することで,このギャップを埋めるものである。
以上の結果から,LLMの大部分が適切に機能していないため,より強力な安全性フィルタやディファイラの必要性が示唆された。
論文 参考訳(メタデータ) (2024-12-18T09:48:53Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。