論文の概要: NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist
- arxiv url: http://arxiv.org/abs/2602.16756v1
- Date: Wed, 18 Feb 2026 09:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.278073
- Title: NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist
- Title(参考訳): NESSiE: 必要安全ベンチマーク -- 存在すべきでないエラーを特定する
- Authors: Johannes Bertram, Jonas Geiping,
- Abstract要約: 大規模な言語モデル(LLM)のためのNEceSsary SafEtyベンチマークであるNESSiEを紹介する。
NESSiEは、軽量で使いやすい、言語モデルの安全性チェックを意図している。
我々の結果は、自律エージェントのようなモデルを野生に展開する上で重要なリスクを浮き彫りにした。
- 参考スコア(独自算出の注目度): 34.29753206987647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce NESSiE, the NEceSsary SafEty benchmark for large language models (LLMs). With minimal test cases of information and access security, NESSiE reveals safety-relevant failures that should not exist, given the low complexity of the tasks. NESSiE is intended as a lightweight, easy-to-use sanity check for language model safety and, as such, is not sufficient for guaranteeing safety in general -- but we argue that passing this test is necessary for any deployment. However, even state-of-the-art LLMs do not reach 100% on NESSiE and thus fail our necessary condition of language model safety, even in the absence of adversarial attacks. Our Safe & Helpful (SH) metric allows for direct comparison of the two requirements, showing models are biased toward being helpful rather than safe. We further find that disabled reasoning for some models, but especially a benign distraction context degrade model performance. Overall, our results underscore the critical risks of deploying such models as autonomous agents in the wild. We make the dataset, package and plotting code publicly available.
- Abstract(参考訳): 大規模な言語モデル(LLM)のためのNEceSsary SafEtyベンチマークであるNESSiEを紹介する。
情報とアクセスセキュリティの最小限のテストケースで、NESSiEは、タスクの複雑さが低いため、存在すべきでない安全関連障害を明らかにします。
NESSiEは、言語モデルの安全性の軽量で使いやすい正当性チェックを意図しています。
しかし、最先端のLLMでさえNESSiEでは100%に達しず、敵攻撃がなくても言語モデルの安全性の必要条件を満たせない。
私たちの Safe & Helpful (SH) メトリクスは、2つの要件を直接比較することができます。
さらに、いくつかのモデルに対する障害推論、特に良質な気晴らしコンテキストはモデル性能を低下させる。
全体として、私たちの結果は、自律エージェントのようなモデルを野生に展開する上で重要なリスクを浮き彫りにしている。
データセット、パッケージ、プロットコードを公開しています。
関連論文リスト
- VSCBench: Bridging the Gap in Vision-Language Model Safety Calibration [44.74741064549195]
我々は、アンダーセーフとオーバーセーフの両方に体系的に対処する$textitsafety calibrationという概念を紹介した。
視覚的にもテキスト的にも似ているが安全性の点で異なる3,600枚の画像テキストペアからなる新しいデータセットを提示する。
本ベンチマークにより,広義の視覚言語モデル11種を対象に,安全性校正の評価を行った。
論文 参考訳(メタデータ) (2025-05-26T09:01:46Z) - Do LLMs Understand the Safety of Their Inputs? Training-Free Moderation via Latent Prototypes [1.0779346838250028]
ラテントプロトタイプモデレータ (LPM) は、ラテント空間におけるマハラノビス距離を用いて入力安全性を評価する訓練のないモデレーション手法である。
LPMは、複数の安全ベンチマークで最先端のガードモデルと一致または超えている。
論文 参考訳(メタデータ) (2025-02-22T10:31:50Z) - SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models [63.63254955809224]
本稿では,難しい例と簡単な例を区別するバイナリルータを提案する。
提案手法は、ルータが考慮するデータに対して、より大きな安全ガードモデルを選択的に適用し、精度を維持しながら効率を向上する。
複数のベンチマークデータセットによる実験結果から,適応モデルの選択により,計算コストと安全性性能のトレードオフが著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:51:17Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。