論文の概要: Decoding Safety Feedback from Diverse Raters: A Data-driven Lens on Responsiveness to Severity
- arxiv url: http://arxiv.org/abs/2503.05609v2
- Date: Mon, 23 Jun 2025 10:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.221523
- Title: Decoding Safety Feedback from Diverse Raters: A Data-driven Lens on Responsiveness to Severity
- Title(参考訳): ディバースレーダからの安全性フィードバックの復号:重度に対する応答性に関するデータ駆動型レンズ
- Authors: Pushkar Mishra, Charvi Rastogi, Stephen R. Pfohl, Alicia Parrish, Tian Huey Teh, Roma Patel, Mark Diaz, Ding Wang, Michela Paganini, Vinodkumar Prabhakaran, Lora Aroyo, Verena Rieser,
- Abstract要約: 本稿では,複数のデータセットの粒度評価を解釈するための新しいデータ駆動型手法を提案する。
安全違反の度合いの異なるレベルを評価する際に,レーダの整合性を定量化する非パラメトリック応答性指標を蒸留する。
提案手法は,異なる階層群をまたいだニュアンスな視点を捉えることで,レーダの選択やフィードバックの解釈に役立てることができることを示す。
- 参考スコア(独自算出の注目度): 27.898678946802438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the safety of Generative AI requires a nuanced understanding of pluralistic viewpoints. In this paper, we introduce a novel data-driven approach for interpreting granular ratings in pluralistic datasets. Specifically, we address the challenge of analyzing nuanced differences in safety feedback from a diverse population expressed via ordinal scales (e.g., a Likert scale). We distill non-parametric responsiveness metrics that quantify the consistency of raters in scoring varying levels of the severity of safety violations. Leveraging a publicly available pluralistic dataset of safety feedback on AI-generated content as our case study, we investigate how raters from different demographic groups (age, gender, ethnicity) use an ordinal scale to express their perceptions of the severity of violations. We apply our metrics across violation types, demonstrating their utility in extracting nuanced insights that are crucial for aligning AI systems reliably in multi-cultural contexts. We show that our approach can inform rater selection and feedback interpretation by capturing nuanced viewpoints across different demographic groups, hence improving the quality of pluralistic data collection and in turn contributing to more robust AI development.
- Abstract(参考訳): 生成AIの安全性を確保するには、多元的視点の微妙な理解が必要である。
本稿では,複数のデータセットの粒度評価を解釈する新しいデータ駆動手法を提案する。
具体的には、序列尺度(例えば、Likert尺度)で表される多様な集団からの安全フィードバックの微妙な違いを分析することの課題に対処する。
安全違反の度合いの異なるレベルを評価する際に,レーダの整合性を定量化する非パラメトリック応答性指標を蒸留する。
本稿では、AI生成コンテンツに対する安全フィードバックの多元的データセットを事例として、異なる人口集団(年齢、性別、民族)のラッカーが、違反の深刻さに対する認識をいかに表すかを検討する。
違反タイプにまたがってメトリクスを適用し、多文化的な文脈においてAIシステムを確実に整合させるのに不可欠なニュアンスな洞察を抽出する上で、その有用性を実証する。
提案手法は,異なる階層群にまたがる微妙な視点を捉え,多元的データ収集の質を向上し,より堅牢なAI開発に寄与することで,レーダの選択やフィードバックの解釈を通知できることを示す。
関連論文リスト
- Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Insights on Disagreement Patterns in Multimodal Safety Perception across Diverse Rater Groups [29.720095331989064]
AIシステムは人間のレーティングに大きく依存するが、これらのレーティングはしばしば集約される。
これは、社会文化的文脈によって知覚と関連する害が著しく異なる、生成的AIの安全性を評価する場合に特に関係している。
人口統計学的に多彩な630人のレーダプールから,約1000文字対画像(T2I)の高並列安全性評価を用いた大規模研究を行った。
論文 参考訳(メタデータ) (2024-10-22T13:59:21Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Interpretable Rule-Based System for Radar-Based Gesture Sensing: Enhancing Transparency and Personalization in AI [2.99664686845172]
我々は,レーダに基づくジェスチャー検出に適した,透過的かつ解釈可能な多クラスルールベースアルゴリズムであるMIRAを紹介する。
ユーザ中心のAIエクスペリエンスを提供し、個々のユーザの振る舞いを調整するパーソナライズされたルールセットを通じて、システムの適応性を示す。
我々の研究は、MIRAが高い解釈可能性とパフォーマンスの両方を提供する能力を強調し、安全クリティカルなアプリケーションで解釈可能なAIを広く採用する可能性を強調している。
論文 参考訳(メタデータ) (2024-09-30T16:40:27Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - GRASP: A Disagreement Analysis Framework to Assess Group Associations in Perspectives [18.574420136899978]
本稿では,グループ関係を,異なるレーダサブグループ間の視点で測定するための総合的不一致分析フレームワークGRASPを提案する。
本フレームワークは,特定のタスクにおいて他と大きく異なる視点を持つ特定のレーダ群を明らかにし,特定のタスクコンテキストにおいて考慮すべき人口動態の同定を支援する。
論文 参考訳(メタデータ) (2023-11-09T00:12:21Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Building Safe and Reliable AI systems for Safety Critical Tasks with
Vision-Language Processing [1.2183405753834557]
現在のAIアルゴリズムでは、障害検出の一般的な原因を特定できない。
予測の質を定量化するためには、追加のテクニックが必要である。
この論文は、分類、画像キャプション、視覚質問応答といったタスクのための視覚言語データ処理に焦点を当てる。
論文 参考訳(メタデータ) (2023-08-06T18:05:59Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。