Fugu-MT 論文翻訳(概要): SAGE-Eval: Evaluating LLMs for Systematic Generalizations of Safety Facts

論文の概要: SAGE-Eval: Evaluating LLMs for Systematic Generalizations of Safety Facts

arxiv url: http://arxiv.org/abs/2505.21828v1
Date: Tue, 27 May 2025 23:29:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.32998
Title: SAGE-Eval: Evaluating LLMs for Systematic Generalizations of Safety Facts
Title（参考訳）: SAGE-Eval:安全基準の体系的一般化のためのLCMの評価
Authors: Chen Yueh-Han, Guy Davidson, Brenden M. Lake,
Abstract要約: SAGE-Eval は LLM が適切な安全事実を適切に適用できるかどうかを検証した最初のベンチマークである。 SAGE-Evalは、信頼できる組織から手作業でソースされた104の事実で構成され、体系的に10,428のテストシナリオを生成する。トップモデルであるClaude-3.7-sonnetは、テストされたすべての安全事実の58%しか通過していない。
参考スコア（独自算出の注目度）: 9.694940903078656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Do LLMs robustly generalize critical safety facts to novel situations? Lacking this ability is dangerous when users ask naive questions. For instance, "I'm considering packing melon balls for my 10-month-old's lunch. What other foods would be good to include?" Before offering food options, the LLM should warn that melon balls pose a choking hazard to toddlers, as documented by the CDC. Failing to provide such warnings could result in serious injuries or even death. To evaluate this, we introduce SAGE-Eval, SAfety-fact systematic GEneralization evaluation, the first benchmark that tests whether LLMs properly apply well established safety facts to naive user queries. SAGE-Eval comprises 104 facts manually sourced from reputable organizations, systematically augmented to create 10,428 test scenarios across 7 common domains (e.g., Outdoor Activities, Medicine). We find that the top model, Claude-3.7-sonnet, passes only 58% of all the safety facts tested. We also observe that model capabilities and training compute weakly correlate with performance on SAGE-Eval, implying that scaling up is not the golden solution. Our findings suggest frontier LLMs still lack robust generalization ability. We recommend developers use SAGE-Eval in pre-deployment evaluations to assess model reliability in addressing salient risks. We publicly release SAGE-Eval at https://huggingface.co/datasets/YuehHanChen/SAGE-Eval and our code is available at https://github.com/YuehHanChen/SAGE-Eval/tree/main.
Abstract（参考訳）: LLMは、危機的安全事実を新しい状況にしっかりと一般化するのか? ユーザーがナイーブな質問をするときには、この能力を欠くのは危険だ。例えば、「10ヶ月のランチにメロンのボールを詰めることを検討している。他のどんな食べ物が良いのか?」といった具合です。 LLMは、食品オプションを提供する前に、CDCが記録したように、メロンボールが幼児にチョーキングの危険をもたらすことを警告すべきである。このような警告を下すことができず、重傷を負ったり、死に至ることもある。これを評価するために,SAGE-Eval(SAfety-fact systematic GEneralization Evaluation,SAfety-fact system GEneralization evaluation)を導入する。 SAGE-Evalは、信頼できる組織から手動で作成した104の事実で構成されており、体系的に7つの共通ドメイン(例えば、アウトドアアクティビティ、医療)にわたる10,428のテストシナリオを作成するために10,428のテストシナリオを作成する。トップモデルであるClaude-3.7-sonnetは、テストされたすべての安全事実の58%しか通過していない。また、モデル能力とトレーニング計算がSAGE-Evalのパフォーマンスと弱い相関関係にあることも観察し、スケールアップが黄金のソリューションではないことを示唆している。以上の結果から,フロンティアLSMは依然として堅牢な一般化能力に欠けていたことが示唆された。我々は、SAGE-Evalをデプロイ前の評価に使用して、健全なリスクに対処する際のモデルの信頼性を評価することを推奨する。私たちはSAGE-Evalをhttps://huggingface.co/datasets/YuehHanChen/SAGE-Evalで公開しています。

関連論文リスト

Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文参考訳（メタデータ） (2025-06-20T17:57:12Z)
Safety Pretraining: Toward the Next Generation of Safe AI [61.2816320807586]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。 i)600Bトークンをフィルタするために使用される1万GPT-4ラベルの例に基づいてトレーニングされた安全分類器,(ii)有害なWebデータのテキスト化によって生成された,これまでで最大の合成安全データセット,(iv)安全でないコンテンツのフラグ付けのために事前トレーニング中に注入されたハームフルネス・タグアノテーション。
論文参考訳（メタデータ） (2025-04-23T17:58:08Z)
CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文参考訳（メタデータ） (2024-10-29T03:25:20Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。 OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文参考訳（メタデータ） (2024-05-31T15:44:33Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)
Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T09:46:25Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。本稿では,中国のLLMの安全性評価のためのデータセットを提案する。次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文参考訳（メタデータ） (2024-02-19T14:56:18Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。