論文の概要: How Safe is Your Safety Metric? Automatic Concatenation Tests for Metric Reliability
- arxiv url: http://arxiv.org/abs/2408.12259v2
- Date: Wed, 12 Feb 2025 19:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:45:42.023529
- Title: How Safe is Your Safety Metric? Automatic Concatenation Tests for Metric Reliability
- Title(参考訳): 安全基準と安全基準
- Authors: Ora Nova Fandina, Leshem Choshen, Eitan Farchi, George Kour, Yotam Perlitz, Orna Raz,
- Abstract要約: 有害性評価基準は、大言語モデルから安全でない応答をフィルタリングすることを目的としている。
個々の有害なプロンプト-レスポンスペアに適用すると、リスクの高いスコアを割り当てることで、それらを安全でないと正しくフラグ付けする。
しかし、同じペアがラベル付けされている場合、メトリクスの決定は予期せず逆転し、組み合わせたコンテンツを低いスコアで安全にラベル付けすることで、有害なテキストがフィルタをバイパスすることができる。
我々は、GPTベースの審査員のような高度な指標を含む複数の安全指標が、この非安全行動を示すことを発見した。
- 参考スコア(独自算出の注目度): 9.355471292024061
- License:
- Abstract: Consider a scenario where a harmfulness evaluation metric intended to filter unsafe responses from a Large Language Model. When applied to individual harmful prompt-response pairs, it correctly flags them as unsafe by assigning a high-risk score. Yet, if those same pairs are concatenated, the metrics decision unexpectedly reverses - labelling the combined content as safe with a low score, allowing the harmful text to bypass the filter. We found that multiple safety metrics, including advanced metrics such as GPT-based judges, exhibit this non-safe behaviour. Moreover, they show a strong sensitivity to input order: responses are often classified as safe if safe content appears first, regardless of any harmful content that follows, and vice versa. These findings underscore the importance of evaluating the safety of safety metrics, that is, the reliability of their output scores. To address this, we developed general, automatic, concatenation-based tests to assess key properties of these metrics. When applied in a model safety scenario, the tests revealed significant inconsistencies in harmfulness evaluations.
- Abstract(参考訳): 大規模言語モデルから安全でない応答をフィルタリングすることを目的とした有害度評価指標を検討する。
個々の有害なプロンプト-レスポンスペアに適用すると、リスクの高いスコアを割り当てることで、それらを安全でないと正しくフラグ付けする。
しかし、同じペアが結合された場合、メトリクスの決定は予期せず逆転し、組み合わせたコンテンツを低いスコアで安全にラベル付けすることで、有害なテキストがフィルタをバイパスすることができる。
我々は、GPTベースの審査員のような高度な指標を含む複数の安全指標が、この非安全行動を示すことを発見した。
さらに、入力順序に対して強い感度を示す:応答は、後続する有害な内容に関係なく、安全コンテンツが最初に現れる場合、安全であると分類されることが多い。
これらの結果は,安全性指標,すなわち出力スコアの信頼性を評価することの重要性を浮き彫りにした。
そこで我々は,これらの指標の重要な特性を評価するために,汎用的,自動的,結合型テストを開発した。
モデル安全性シナリオに適用すると, 有害性評価において有意な矛盾が認められた。
関連論文リスト
- ELITE: Enhanced Language-Image Toxicity Evaluation for Safety [22.371913404553545]
現在の視覚言語モデル(VLM)は、有害な出力を引き起こす悪意のあるプロンプトに対して脆弱なままである。
既存のベンチマークでは、有害性の低いレベル、曖昧なデータ、画像とテキストの組み合わせの多様性が制限されている。
本稿では,VLM の安全性評価ベンチマークである ELITE ベンチマークを提案し,改良された評価手法である ELITE 評価器を用いて評価を行った。
論文 参考訳(メタデータ) (2025-02-07T08:43:15Z) - SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders [5.070104802923903]
UnsafeプロンプトはLarge Language Models (LLM)に重大な脅威をもたらす
本稿では,安全でないプロンプトと区別する文エンコーダの可能性について検討する。
我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリパーティメトリックを導入します。
論文 参考訳(メタデータ) (2024-07-09T13:35:54Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models [5.6874111521946356]
安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示す。
文脈適応型デコード型安全アライメント戦略であるSafeInferを提案する。
HarmEvalは、広範な安全性評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-06-18T05:03:23Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - SafeText: A Benchmark for Exploring Physical Safety in Language Models [62.810902375154136]
テキスト生成およびコモンセンス推論タスク用に設計された各種モデルのコモンセンス物理安全性について検討する。
最先端の大規模言語モデルは、安全でないテキストの生成に影響を受けやすく、安全でないアドバイスを拒否するのが困難であることがわかった。
論文 参考訳(メタデータ) (2022-10-18T17:59:31Z) - Bayes Security: A Not So Average Metric [20.60340368521067]
セキュリティシステムのデザイナは、ディファレンシャルプライバシ(DP)から派生したような最悪のセキュリティ指標を好む。
本稿では,暗号の優位性に触発されたセキュリティ指標ベイズセキュリティについて検討する。
論文 参考訳(メタデータ) (2020-11-06T14:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。