論文の概要: Who Gets Left Behind? Auditing Disability Inclusivity in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.00963v1
- Date: Sun, 31 Aug 2025 19:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.480477
- Title: Who Gets Left Behind? Auditing Disability Inclusivity in Large Language Models
- Title(参考訳): 大規模言語モデルにおける障害の増進性に注目する人
- Authors: Deepika Dash, Yeshil Bangera, Mithil Bangera, Gouthami Vadithya, Srikant Panda,
- Abstract要約: 評価された汎用アクセシビリティ質問の分類基準1を提示する。
我々のベンチマークでは、質問レベルカバレッジ、障害レベルカバレッジ、深さの3つの次元に沿ってモデルを評価する。
このフレームワークを17のプロプライエタリでオープンなモデルに適用すると、永続的なインクリシティのギャップが明らかになる。
- 参考スコア(独自算出の注目度): 0.6931288002857499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used for accessibility guidance, yet many disability groups remain underserved by their advice. To address this gap, we present taxonomy aligned benchmark1 of human validated, general purpose accessibility questions, designed to systematically audit inclusivity across disabilities. Our benchmark evaluates models along three dimensions: Question-Level Coverage (breadth within answers), Disability-Level Coverage (balance across nine disability categories), and Depth (specificity of support). Applying this framework to 17 proprietary and open-weight models reveals persistent inclusivity gaps: Vision, Hearing, and Mobility are frequently addressed, while Speech, Genetic/Developmental, Sensory-Cognitive, and Mental Health remain under served. Depth is similarly concentrated in a few categories but sparse elsewhere. These findings reveal who gets left behind in current LLM accessibility guidance and highlight actionable levers: taxonomy-aware prompting/training and evaluations that jointly audit breadth, balance, and depth.
- Abstract(参考訳): 大きな言語モデル(LLM)はアクセシビリティガイダンスにますます使われていますが、多くの障害グループはアドバイスによって守られています。
このギャップに対処するために,障害者のインクリビティを体系的に監査するために設計された,人間の検証済みの汎用アクセシビリティー質問の分類基準1を提示する。
本ベンチマークでは,質問レベルカバレッジ(回答の範囲内),障害レベルカバレッジ(9つの障害カテゴリ間のバランス),深さ(サポートの具体性)という3つの側面のモデルを評価した。
このフレームワークをプロプライエタリでオープンな17のモデルに適用すると、視覚、聴覚、モビリティが頻繁に対処される一方で、スピーチ、遺伝的/発達、知覚認知、メンタルヘルスが引き続き利用されています。
深さも同様にいくつかのカテゴリーに集中しているが、他の場所では希薄である。
以上の結果から,現在のLCMアクセシビリティガイダンスでは誰が残されているのかが明らかとなり,行動可能なレバーが強調された。
関連論文リスト
- Who's Asking? Investigating Bias Through the Lens of Disability Framed Queries in LLMs [2.722784054643991]
大規模言語モデル(LLM)は、ユーザの人口統計特性を、単独で推測する。
これらの推論を形作る際の障害の手がかりは、ほとんど未発見のままである。
そこで本研究では,障害条件による人口統計バイアスを,最先端の8つのLLMに対して,初めて体系的に評価した。
論文 参考訳(メタデータ) (2025-08-18T21:03:09Z) - Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-26T20:01:44Z) - Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey [49.1574468325115]
我々は総合的な調査を行い、LALM評価のための体系的な分類法を提案する。
各カテゴリの詳細な概要と,この分野の課題について紹介する。
調査した論文の収集を公表し、現在進行中の分野の発展を支援するため、積極的に維持していく。
論文 参考訳(メタデータ) (2025-05-21T19:17:29Z) - Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。
i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。
この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (2025-04-26T07:48:52Z) - Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。
幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。
本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-11-21T16:09:05Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models [34.09419351705938]
本稿では,大規模言語モデル(LLM)を評価するためのメンタルヘルス関連タスクの包括的スイートであるPsyEvalについて述べる。
この包括的枠組みは、メンタルヘルス関連のタスクの独特な課題と複雑さを徹底的に評価するために設計されている。
論文 参考訳(メタデータ) (2023-11-15T18:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。