論文の概要: AccessEval: Benchmarking Disability Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.22703v1
- Date: Mon, 22 Sep 2025 17:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.808679
- Title: AccessEval: Benchmarking Disability Bias in Large Language Models
- Title(参考訳): AccessEval: 大規模言語モデルにおける障害バイアスのベンチマーク
- Authors: Srikant Panda, Amit Agarwal, Hitesh Laxmichand Patel,
- Abstract要約: 大きな言語モデル(LLM)は、さまざまなドメインにまたがってデプロイされることが多いが、実際のクエリの処理方法に相違があることが多い。
textbfAccessEval(アクセシビリティ評価)は、6つの現実世界ドメインと9つの障害タイプにわたる、21のクローズドおよびオープンソースLSMを評価するベンチマークである。
分析の結果,障害対応クエリに対する応答は,中立クエリに比べて負のトーン,ステレオタイピングの増大,事実エラーの増大がみられた。
- 参考スコア(独自算出の注目度): 3.160274015679566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed across diverse domains but often exhibit disparities in how they handle real-life queries. To systematically investigate these effects within various disability contexts, we introduce \textbf{AccessEval (Accessibility Evaluation)}, a benchmark evaluating 21 closed- and open-source LLMs across 6 real-world domains and 9 disability types using paired Neutral and Disability-Aware Queries. We evaluated model outputs with metrics for sentiment, social perception, and factual accuracy. Our analysis reveals that responses to disability-aware queries tend to have a more negative tone, increased stereotyping, and higher factual error compared to neutral queries. These effects show notable variation by domain and disability type, with disabilities affecting hearing, speech, and mobility disproportionately impacted. These disparities reflect persistent forms of ableism embedded in model behavior. By examining model performance in real-world decision-making contexts, we better illuminate how such biases can translate into tangible harms for disabled users. This framing helps bridges the gap between technical evaluation and user impact, reinforcing importance of bias mitigation in day-to-day applications. Our dataset is publicly available at: https://huggingface.co/datasets/Srikant86/AccessEval
- Abstract(参考訳): 大きな言語モデル(LLM)は、さまざまなドメインにまたがってデプロイされることが多いが、実際のクエリの処理方法に相違があることが多い。
各種障害コンテキストにおけるこれらの影響を系統的に検討するために, 実世界の6つのドメインおよび9つの障害タイプを対象とした21の閉かつオープンソースLCMを, ペア化ニュートラルおよび障害対応クエリを用いて評価するベンチマークである, アクセシビリティ評価(AccessEval)を導入する。
感情,社会的知覚,事実的精度の指標を用いて,モデル出力を評価した。
分析の結果,障害対応クエリに対する応答は,中立クエリに比べて負のトーン,ステレオタイピングの増大,事実エラーの増大がみられた。
これらの効果は、聴覚、音声、移動が不均等に影響を及ぼす障害を伴う、ドメインタイプと障害タイプによる顕著な変化を示す。
これらの格差は、モデル行動に埋め込まれた永続的な実行可能性の形式を反映している。
実世界の意思決定コンテキストにおけるモデルパフォーマンスを調べることにより、そのようなバイアスが障害のあるユーザにとって有意義な害にどのように変換できるかを、より明確にする。
このフレーミングは、技術的評価とユーザへの影響のギャップを埋め、日々のアプリケーションにおけるバイアス軽減の重要性を強化するのに役立つ。
私たちのデータセットは、https://huggingface.co/datasets/Srikant86/AccessEvalで公開されています。
関連論文リスト
- Who Gets Left Behind? Auditing Disability Inclusivity in Large Language Models [0.6931288002857499]
評価された汎用アクセシビリティ質問の分類基準1を提示する。
我々のベンチマークでは、質問レベルカバレッジ、障害レベルカバレッジ、深さの3つの次元に沿ってモデルを評価する。
このフレームワークを17のプロプライエタリでオープンなモデルに適用すると、永続的なインクリシティのギャップが明らかになる。
論文 参考訳(メタデータ) (2025-08-31T19:12:01Z) - Who's Asking? Investigating Bias Through the Lens of Disability Framed Queries in LLMs [2.722784054643991]
大規模言語モデル(LLM)は、ユーザの人口統計特性を、単独で推測する。
これらの推論を形作る際の障害の手がかりは、ほとんど未発見のままである。
そこで本研究では,障害条件による人口統計バイアスを,最先端の8つのLLMに対して,初めて体系的に評価した。
論文 参考訳(メタデータ) (2025-08-18T21:03:09Z) - Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability [10.607081850023286]
ISEval(Input Scrutiny Ability Evaluation Framework)は,7つの欠陥のある前提と3つの評価指標を含む。
ほとんどのモデルは、ガイダンスなしで欠陥のあるテキストの前提を積極的に検出するのに苦労している。
これらの知見は、LMMの入力妥当性の積極的な検証を強化する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-06T02:13:46Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。