論文の概要: Surfacing Semantic Orthogonality Across Model Safety Benchmarks: A Multi-Dimensional Analysis
- arxiv url: http://arxiv.org/abs/2505.17636v1
- Date: Fri, 23 May 2025 08:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.937766
- Title: Surfacing Semantic Orthogonality Across Model Safety Benchmarks: A Multi-Dimensional Analysis
- Title(参考訳): モデル安全性ベンチマークにおける対面的直交性:多次元解析
- Authors: Jonathan Bennion, Shaona Ghosh, Mantek Singh, Nouha Dziri,
- Abstract要約: UMAP次元の削減とkmeansクラスタリングによるセマンティッククラスタの評価を行った。
ベンチマーク表現の異なる6つの主要な調和カテゴリーを同定する。
- 参考スコア(独自算出の注目度): 4.3659097510044855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Various AI safety datasets have been developed to measure LLMs against evolving interpretations of harm. Our evaluation of five recently published open-source safety benchmarks reveals distinct semantic clusters using UMAP dimensionality reduction and kmeans clustering (silhouette score: 0.470). We identify six primary harm categories with varying benchmark representation. GretelAI, for example, focuses heavily on privacy concerns, while WildGuardMix emphasizes self-harm scenarios. Significant differences in prompt length distribution suggests confounds to data collection and interpretations of harm as well as offer possible context. Our analysis quantifies benchmark orthogonality among AI benchmarks, allowing for transparency in coverage gaps despite topical similarities. Our quantitative framework for analyzing semantic orthogonality across safety benchmarks enables more targeted development of datasets that comprehensively address the evolving landscape of harms in AI use, however that is defined in the future.
- Abstract(参考訳): 様々なAI安全データセットが開発され、害の解釈の進化に対してLSMを測定する。
最近公開された5つのオープンソース安全ベンチマークの評価では、UMAP次元の削減とkmeansクラスタリング(シルエットスコア:0.470)を用いて、異なるセマンティッククラスタを明らかにした。
ベンチマーク表現の異なる6つの主要な調和カテゴリーを同定する。
例えば、GretelAIはプライバシーの懸念に重点を置いており、WildGuardMixは自己修復シナリオを強調している。
プロンプト長分布の顕著な違いは、データ収集と害の解釈に矛盾があることを示唆している。
我々の分析は、AIベンチマーク間のベンチマーク直交性を定量化し、トピックの類似性にもかかわらず、カバレッジギャップの透明性を実現する。
安全ベンチマーク間のセマンティック直交性を分析するための定量的なフレームワークは、AI利用における害の進化状況に包括的に対処するデータセットをよりターゲットとした開発を可能にするが、将来的にはそれが定義される。
関連論文リスト
- Nuanced Safety for Generative AI: How Demographics Shape Responsiveness to Severity [28.05638097604126]
本稿では,複数のデータセットの粒度評価を校正するための新しいデータ駆動手法を提案する。
安全違反の度合いの異なるレベルを評価する際に,レーダの一貫性を定量化する非パラメトリック応答性指標を蒸留する。
提案手法は,異なる人口集団間でのニュアンスな視点を捉えることにより,安全上の懸念を優先順位付けする能力の向上を図っている。
論文 参考訳(メタデータ) (2025-03-07T17:32:31Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Addressing Key Challenges of Adversarial Attacks and Defenses in the Tabular Domain: A Methodological Framework for Coherence and Consistency [26.645723217188323]
本稿では,表領域における敵攻撃に適した新たな評価基準を提案する。
また,サンプル内のコヒーレンスと特徴整合性を維持しつつ,依存する特徴を摂動する新しい手法を導入する。
この発見は、表領域における様々な敵攻撃の強さ、限界、トレードオフに関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-12-10T09:17:09Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Measuring Adversarial Datasets [28.221635644616523]
研究者は、標準的なベンチマークデータセットでは明らかにできないモデル欠陥をキャプチャするために、さまざまな逆データセットをキュレートした。
これらの敵対的変換の意図的かつ意図しない結果を測定する方法はまだ存在しない。
NLPタスクのテキストインスタンスを記述した既存の定量化指標の体系的な調査を行った。
論文 参考訳(メタデータ) (2023-11-06T22:08:16Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。