論文の概要: Nuanced Safety for Generative AI: How Demographics Shape Responsiveness to Severity
- arxiv url: http://arxiv.org/abs/2503.05609v1
- Date: Fri, 07 Mar 2025 17:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:41.946931
- Title: Nuanced Safety for Generative AI: How Demographics Shape Responsiveness to Severity
- Title(参考訳): ジェネレーティブAIのためのNuanced Safety:Demographicsはいかにして深刻さに対する責任を形作るか
- Authors: Pushkar Mishra, Charvi Rastogi, Stephen R. Pfohl, Alicia Parrish, Roma Patel, Mark Diaz, Ding Wang, Michela Paganini, Vinodkumar Prabhakaran, Lora Aroyo, Verena Rieser,
- Abstract要約: 本稿では,複数のデータセットの粒度評価を校正するための新しいデータ駆動手法を提案する。
安全違反の度合いの異なるレベルを評価する際に,レーダの一貫性を定量化する非パラメトリック応答性指標を蒸留する。
提案手法は,異なる人口集団間でのニュアンスな視点を捉えることにより,安全上の懸念を優先順位付けする能力の向上を図っている。
- 参考スコア(独自算出の注目度): 28.05638097604126
- License:
- Abstract: Ensuring safety of Generative AI requires a nuanced understanding of pluralistic viewpoints. In this paper, we introduce a novel data-driven approach for calibrating granular ratings in pluralistic datasets. Specifically, we address the challenge of interpreting responses of a diverse population to safety expressed via ordinal scales (e.g., Likert scale). We distill non-parametric responsiveness metrics that quantify the consistency of raters in scoring the varying levels of the severity of safety violations. Using safety evaluation of AI-generated content as a case study, we investigate how raters from different demographic groups (age, gender, ethnicity) use an ordinal scale to express their perception of the severity of violations in a pluralistic safety dataset. We apply our metrics across violation types, demonstrating their utility in extracting nuanced insights that are crucial for developing reliable AI systems in a multi-cultural contexts. We show that our approach offers improved capabilities for prioritizing safety concerns by capturing nuanced viewpoints across different demographic groups, hence improving the reliability of pluralistic data collection and in turn contributing to more robust AI evaluations.
- Abstract(参考訳): 生成AIの安全性を確保するには、多元的視点の微妙な理解が必要である。
本稿では,複数のデータセットの粒度評価を校正する新しいデータ駆動手法を提案する。
具体的には,人口の多様さを基準尺度(例えば,いいね!」尺度)で表現した安全性に対する応答を解釈することの課題に対処する。
安全違反の度合いの異なるレベルを評価する際に,レーダの一貫性を定量化する非パラメトリック応答性指標を蒸留する。
本研究では、AI生成コンテンツの安全性評価を事例として、異なる人口集団(年齢、性別、民族)のラッカーが、多元的安全データセットにおける違反の重大さに対する認識を表現するために、序列尺度をどのように利用するかを検討する。
我々は,多文化的な文脈で信頼性の高いAIシステムを開発する上で重要な,ニュアンスな洞察を抽出する上で,その有用性を実証して,違反タイプにまたがってメトリクスを適用します。
提案手法は, 異なる階層群にまたがる微妙な視点を捉え, 多元データ収集の信頼性を向上し, より堅牢なAI評価に寄与することにより, 安全上の懸念を優先順位付けする能力の向上を図っている。
関連論文リスト
- Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - Insights on Disagreement Patterns in Multimodal Safety Perception across Diverse Rater Groups [29.720095331989064]
AIシステムは人間のレーティングに大きく依存するが、これらのレーティングはしばしば集約される。
これは、社会文化的文脈によって知覚と関連する害が著しく異なる、生成的AIの安全性を評価する場合に特に関係している。
人口統計学的に多彩な630人のレーダプールから,約1000文字対画像(T2I)の高並列安全性評価を用いた大規模研究を行った。
論文 参考訳(メタデータ) (2024-10-22T13:59:21Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Interpretable Rule-Based System for Radar-Based Gesture Sensing: Enhancing Transparency and Personalization in AI [2.99664686845172]
我々は,レーダに基づくジェスチャー検出に適した,透過的かつ解釈可能な多クラスルールベースアルゴリズムであるMIRAを紹介する。
ユーザ中心のAIエクスペリエンスを提供し、個々のユーザの振る舞いを調整するパーソナライズされたルールセットを通じて、システムの適応性を示す。
我々の研究は、MIRAが高い解釈可能性とパフォーマンスの両方を提供する能力を強調し、安全クリティカルなアプリケーションで解釈可能なAIを広く採用する可能性を強調している。
論文 参考訳(メタデータ) (2024-09-30T16:40:27Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - SAFETY-J: Evaluating Safety with Critique [24.723999605458832]
SAFETY-Jは、英語と中国語のための二言語生成安全評価器であり、批判に基づく判断である。
人間の介入を最小限に抑えて批評の質を客観的に評価する自動メタ評価ベンチマークを構築した。
SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。
論文 参考訳(メタデータ) (2024-07-24T08:04:00Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Building Safe and Reliable AI systems for Safety Critical Tasks with
Vision-Language Processing [1.2183405753834557]
現在のAIアルゴリズムでは、障害検出の一般的な原因を特定できない。
予測の質を定量化するためには、追加のテクニックが必要である。
この論文は、分類、画像キャプション、視覚質問応答といったタスクのための視覚言語データ処理に焦点を当てる。
論文 参考訳(メタデータ) (2023-08-06T18:05:59Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。