論文の概要: Can You Trust Your Metric? Automatic Concatenation-Based Tests for Metric Validity
- arxiv url: http://arxiv.org/abs/2408.12259v1
- Date: Thu, 22 Aug 2024 09:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:33:24.936841
- Title: Can You Trust Your Metric? Automatic Concatenation-Based Tests for Metric Validity
- Title(参考訳): メトリクスを信頼できますか? 自動結合によるメトリクス妥当性テスト
- Authors: Ora Nova Fandina, Leshem Choshen, Eitan Farchi, George Kour, Yotam Perlitz, Orna Raz,
- Abstract要約: GPTをベースとした有害度検出指標は、決定フリッピング現象を示す。
GPT-4oのような高度な計量でさえ、入力順序に非常に敏感である。
- 参考スコア(独自算出の注目度): 9.355471292024061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider a scenario where a harmfulness detection metric is employed by a system to filter unsafe responses generated by a Large Language Model. When analyzing individual harmful and unethical prompt-response pairs, the metric correctly classifies each pair as highly unsafe, assigning the highest score. However, when these same prompts and responses are concatenated, the metric's decision flips, assigning the lowest possible score, thereby misclassifying the content as safe and allowing it to bypass the filter. In this study, we discovered that several harmfulness LLM-based metrics, including GPT-based, exhibit this decision-flipping phenomenon. Additionally, we found that even an advanced metric like GPT-4o is highly sensitive to input order. Specifically, it tends to classify responses as safe if the safe content appears first, regardless of any harmful content that follows, and vice versa. This work introduces automatic concatenation-based tests to assess the fundamental properties a valid metric should satisfy. We applied these tests in a model safety scenario to assess the reliability of harmfulness detection metrics, uncovering a number of inconsistencies.
- Abstract(参考訳): 大規模言語モデルによって生成された安全でない応答をフィルタリングするシステムによって有害度検出指標が使用されるシナリオを考えてみましょう。
個人が有害で非倫理的なプロンプト・レスポンスのペアを分析する際、基準はそれぞれのペアを高度に安全でないものとして正しく分類し、最高スコアを割り当てる。
しかし、これらの同じプロンプトと応答が結合されると、メートル法の決定は反転し、可能な限り低いスコアを割り当て、コンテンツの安全性を誤分類し、フィルタをバイパスする。
そこで本研究では,GPTをベースとしたLSMによる有害な指標が,この決定緩和現象を示すことを発見した。
さらに、GPT-4oのような高度な計量でさえ入力順序に非常に敏感であることがわかった。
具体的には、安全コンテンツが最初に現れる場合、次に続く有害コンテンツに関係なく、応答を安全であると分類する傾向があります。
この研究は、有効な計量が満たすべき基本特性を評価するために、自動連結ベースのテストを導入する。
これらの試験をモデル安全シナリオに適用し、有害度検出指標の信頼性を評価し、いくつかの矛盾点を明らかにした。
関連論文リスト
- ELITE: Enhanced Language-Image Toxicity Evaluation for Safety [22.371913404553545]
現在の視覚言語モデル(VLM)は、有害な出力を引き起こす悪意のあるプロンプトに対して脆弱なままである。
既存のベンチマークでは、有害性の低いレベル、曖昧なデータ、画像とテキストの組み合わせの多様性が制限されている。
本稿では,VLM の安全性評価ベンチマークである ELITE ベンチマークを提案し,改良された評価手法である ELITE 評価器を用いて評価を行った。
論文 参考訳(メタデータ) (2025-02-07T08:43:15Z) - SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders [5.070104802923903]
UnsafeプロンプトはLarge Language Models (LLM)に重大な脅威をもたらす
本稿では,安全でないプロンプトと区別する文エンコーダの可能性について検討する。
我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリパーティメトリックを導入します。
論文 参考訳(メタデータ) (2024-07-09T13:35:54Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models [5.6874111521946356]
安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示す。
文脈適応型デコード型安全アライメント戦略であるSafeInferを提案する。
HarmEvalは、広範な安全性評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-06-18T05:03:23Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - SafeText: A Benchmark for Exploring Physical Safety in Language Models [62.810902375154136]
テキスト生成およびコモンセンス推論タスク用に設計された各種モデルのコモンセンス物理安全性について検討する。
最先端の大規模言語モデルは、安全でないテキストの生成に影響を受けやすく、安全でないアドバイスを拒否するのが困難であることがわかった。
論文 参考訳(メタデータ) (2022-10-18T17:59:31Z) - Bayes Security: A Not So Average Metric [20.60340368521067]
セキュリティシステムのデザイナは、ディファレンシャルプライバシ(DP)から派生したような最悪のセキュリティ指標を好む。
本稿では,暗号の優位性に触発されたセキュリティ指標ベイズセキュリティについて検討する。
論文 参考訳(メタデータ) (2020-11-06T14:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。