論文の概要: DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models
- arxiv url: http://arxiv.org/abs/2605.12702v1
- Date: Tue, 12 May 2026 19:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.657531
- Title: DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models
- Title(参考訳): DisaBench: 言語モデルにおける障害ハームに対する参加型評価フレームワーク
- Authors: Eugenia Kim, Ioana Tanase, Christina Mallon,
- Abstract要約: 障害リスクカテゴリー12の分類法であるDisaBenchを紹介する。
データセット、分類、方法論は、Hugging Faceと、既存の安全パイプラインに直接統合するためのオープンソースのレッドチームフレームワークを通じてリリースします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose safety benchmarks for large language models do not adequately evaluate disability-related harms. We introduce DisaBench: a taxonomy of twelve disability harm categories co-created with people with disabilities and red teaming experts, a taxonomy-driven evaluation methodology that pairs benign and adversarial prompts across seven life domains, and a dataset of 175 prompts with human-annotated labels on 525 prompt-response pairs. Annotation by four evaluators with lived disability experience reveals three findings: harm rates vary sharply by disability type and will compound in non-text modalities, terminology-driven harm is culturally and temporally bound rather than universally assessable, and standard safety evaluation catches overt failures while missing the subtle harms that only domain expertise can recognize. Disability harm is simultaneously personal, intersectional, and community-defined: it cannot be isolated from the full context of who a person is, and general-purpose benchmarks systematically miss it. We will release the dataset, taxonomy, and methodology via Hugging Face and an open-source red teaming framework for direct integration into existing safety pipelines with no additional infrastructure.
- Abstract(参考訳): 大規模言語モデルの汎用安全ベンチマークは障害関連障害を適切に評価しない。
障害リスクカテゴリー12の分類法であるDisaBenchについて紹介する。障害のある人やレッドチームの専門家と共同で作成した分類法,7つの生命領域にまたがって良識と敵意のプロンプトをペアリングする分類法,および525のプロンプト-レスポンスペアに人称ラベルをセットした175のデータセットについて紹介する。
生活障害経験のある4人の評価者による注釈は、障害タイプによって顕著に変化し、非テキストモダリティに複合する、用語駆動の害は、普遍的に評価可能ではなく文化的かつ時間的に拘束され、標準安全評価は、ドメインの専門知識だけが認識できる微妙な害を欠き、過度な失敗をキャッチする、という3つの結果を示している。
障害の害は、個人的、交差的、およびコミュニティが定義すると同時に、個人が誰であるかという完全なコンテキストから切り離すことはできない。
私たちはHugging Faceを通じてデータセット、分類、方法論を公開します。また、インフラを追加せずに既存の安全パイプラインに直接統合するためのオープンソースのレッドチームフレームワークもリリースします。
関連論文リスト
- Human Supervision as an Information Bottleneck: A Unified Theory of Error Floors in Human-Guided Learning [51.56484100374058]
制約は、モデルスケールや最適化よりも、監督チャネルの構造的特性を反映している、と我々は主張する。
我々は、人間の監督チャネルが潜在評価対象に十分でない場合、情報伝達チャネルとして機能することを示す統一理論を開発する。
論文 参考訳(メタデータ) (2026-02-26T19:11:32Z) - Drift-Bench: Diagnosing Cooperative Breakdowns in LLM Agents under Input Faults via Multi-Turn Interaction [20.610305266852638]
textbfDrift-Benchは、入力故障下でエージェントの実用性を評価する最初の診断ベンチマークである。
方法ブリッジは、安全でない実行に繋がる障害の体系的な診断を可能にする、明確化研究とエージェントの安全性評価を橋渡しする。
論文 参考訳(メタデータ) (2026-02-02T18:46:16Z) - Auditing Disability Representation in Vision-Language Models [0.6987503477818553]
人中心画像の障害認識記述について検討する。
我々は,ペアニュートラル・プロンプト (NP) と障害文脈型プロンプト (DP) に基づくベンチマークを導入する。
9つの障害カテゴリにまたがるゼロショット設定で、15の最先端のオープンソースおよびクローズドソースビジョン言語モデルを評価する。
論文 参考訳(メタデータ) (2026-01-24T07:25:43Z) - AccessEval: Benchmarking Disability Bias in Large Language Models [3.160274015679566]
大きな言語モデル(LLM)は、さまざまなドメインにまたがってデプロイされることが多いが、実際のクエリの処理方法に相違があることが多い。
textbfAccessEval(アクセシビリティ評価)は、6つの現実世界ドメインと9つの障害タイプにわたる、21のクローズドおよびオープンソースLSMを評価するベンチマークである。
分析の結果,障害対応クエリに対する応答は,中立クエリに比べて負のトーン,ステレオタイピングの増大,事実エラーの増大がみられた。
論文 参考訳(メタデータ) (2025-09-22T17:49:03Z) - Towards Safer AI Moderation: Evaluating LLM Moderators Through a Unified Benchmark Dataset and Advocating a Human-First Approach [0.9147875523270338]
大規模言語モデル(LLM)は、複雑さとパフォーマンスにおいて、以前のモデルを上回る優れた機能を示している。
彼らは、これらの問題の主観的で文脈に依存した性質のために、暗黙の憎しみ、攻撃的な言葉、性別の偏見を検出するのに苦労している。
我々は、人間の感情や攻撃行動を評価するために、最先端(SOTA)モデルに基づく実験フレームワークを開発した。
論文 参考訳(メタデータ) (2025-08-09T18:00:27Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems [103.416202777731]
我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-08T21:03:18Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Unpacking the Interdependent Systems of Discrimination: Ableist Bias in
NLP Systems through an Intersectional Lens [20.35460711907179]
大規模BERT言語モデルの単語予測に基づく各種解析について報告する。
統計的に有意な結果は、障害者が不利になる可能性があることを示している。
発見者はまた、相互に結びついた性別や人種のアイデンティティに関連する、重複する形の差別についても検討している。
論文 参考訳(メタデータ) (2021-10-01T16:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。