論文の概要: The Problem with Safety Classification is not just the Models
- arxiv url: http://arxiv.org/abs/2507.21782v1
- Date: Tue, 29 Jul 2025 13:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.350923
- Title: The Problem with Safety Classification is not just the Models
- Title(参考訳): 安全分類の問題はモデルだけではない
- Authors: Sowmya Vajjala,
- Abstract要約: 18言語を対象としたデータセットを考慮し,5つの安全分類モデルに多言語差が存在することを示す。
評価データセットの潜在的な問題を特定し、現在の安全分類器の欠点はモデル自体が原因ではないと主張した。
- 参考スコア(独自算出の注目度): 3.2634122554914002
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Studying the robustness of Large Language Models (LLMs) to unsafe behaviors is an important topic of research today. Building safety classification models or guard models, which are fine-tuned models for input/output safety classification for LLMs, is seen as one of the solutions to address the issue. Although there is a lot of research on the safety testing of LLMs themselves, there is little research on evaluating the effectiveness of such safety classifiers or the evaluation datasets used for testing them, especially in multilingual scenarios. In this position paper, we demonstrate how multilingual disparities exist in 5 safety classification models by considering datasets covering 18 languages. At the same time, we identify potential issues with the evaluation datasets, arguing that the shortcomings of current safety classifiers are not only because of the models themselves. We expect that these findings will contribute to the discussion on developing better methods to identify harmful content in LLM inputs across languages.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全でない振る舞いに対する堅牢性を研究することは、今日の研究の重要なトピックである。
LLMの入力/出力安全分類のための微調整モデルである安全分類モデルやガードモデルを構築することは、この問題に対処するための解決策の1つと見なされている。
LLM自体の安全性テストについての研究は多いが、そのような安全性分類器の有効性やテストに使用される評価データセット、特に多言語シナリオにおける評価についてはほとんど研究されていない。
本稿では,18言語を対象としたデータセットを考慮した5つの安全分類モデルにおいて,多言語間の相違がいかに存在するかを示す。
同時に、評価データセットの潜在的な問題を特定し、現在の安全分類器の欠点はモデル自体が原因ではないと主張した。
これらの知見は,言語間でのLLM入力において有害な内容を特定するためのより良い方法の開発に寄与することが期待できる。
関連論文リスト
- PL-Guard: Benchmarking Language Model Safety for Polish [43.39208658482427]
ポーランド語における言語モデルの安全性分類のために,手動で注釈付きベンチマークデータセットを導入する。
また、モデルロバスト性に挑戦するために設計されたこれらのサンプルの逆摂動変異体も作成する。
我々は、アノテーション付きデータの異なる組み合わせを用いてこれらのモデルをトレーニングし、それらのパフォーマンスを評価し、公開されているガードモデルと比較する。
論文 参考訳(メタデータ) (2025-06-19T13:56:41Z) - Do LLMs Understand the Safety of Their Inputs? Training-Free Moderation via Latent Prototypes [1.0779346838250028]
ラテントプロトタイプモデレータ (LPM) は、ラテント空間におけるマハラノビス距離を用いて入力安全性を評価する訓練のないモデレーション手法である。
LPMは、複数の安全ベンチマークで最先端のガードモデルと一致または超えている。
論文 参考訳(メタデータ) (2025-02-22T10:31:50Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。