論文の概要: Who Gets Left Behind? Auditing Disability Inclusivity in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.00963v1
- Date: Sun, 31 Aug 2025 19:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.480477
- Title: Who Gets Left Behind? Auditing Disability Inclusivity in Large Language Models
- Title(参考訳): 大規模言語モデルにおける障害の増進性に注目する人
- Authors: Deepika Dash, Yeshil Bangera, Mithil Bangera, Gouthami Vadithya, Srikant Panda,
- Abstract要約: 評価された汎用アクセシビリティ質問の分類基準1を提示する。
我々のベンチマークでは、質問レベルカバレッジ、障害レベルカバレッジ、深さの3つの次元に沿ってモデルを評価する。
このフレームワークを17のプロプライエタリでオープンなモデルに適用すると、永続的なインクリシティのギャップが明らかになる。
- 参考スコア(独自算出の注目度): 0.6931288002857499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used for accessibility guidance, yet many disability groups remain underserved by their advice. To address this gap, we present taxonomy aligned benchmark1 of human validated, general purpose accessibility questions, designed to systematically audit inclusivity across disabilities. Our benchmark evaluates models along three dimensions: Question-Level Coverage (breadth within answers), Disability-Level Coverage (balance across nine disability categories), and Depth (specificity of support). Applying this framework to 17 proprietary and open-weight models reveals persistent inclusivity gaps: Vision, Hearing, and Mobility are frequently addressed, while Speech, Genetic/Developmental, Sensory-Cognitive, and Mental Health remain under served. Depth is similarly concentrated in a few categories but sparse elsewhere. These findings reveal who gets left behind in current LLM accessibility guidance and highlight actionable levers: taxonomy-aware prompting/training and evaluations that jointly audit breadth, balance, and depth.
- Abstract(参考訳): 大きな言語モデル(LLM)はアクセシビリティガイダンスにますます使われていますが、多くの障害グループはアドバイスによって守られています。
このギャップに対処するために,障害者のインクリビティを体系的に監査するために設計された,人間の検証済みの汎用アクセシビリティー質問の分類基準1を提示する。
本ベンチマークでは,質問レベルカバレッジ(回答の範囲内),障害レベルカバレッジ(9つの障害カテゴリ間のバランス),深さ(サポートの具体性)という3つの側面のモデルを評価した。
このフレームワークをプロプライエタリでオープンな17のモデルに適用すると、視覚、聴覚、モビリティが頻繁に対処される一方で、スピーチ、遺伝的/発達、知覚認知、メンタルヘルスが引き続き利用されています。
深さも同様にいくつかのカテゴリーに集中しているが、他の場所では希薄である。
以上の結果から,現在のLCMアクセシビリティガイダンスでは誰が残されているのかが明らかとなり,行動可能なレバーが強調された。
関連論文リスト
- From Knowledge to Inference: Scaling Laws of Specialized Reasoning on GlobalHealthAtlas [1.8594711725515678]
textbfGlobalHealthAtlasは15の公衆衛生ドメインと17の言語にまたがる280,210のインスタンスからなる大規模多言語データセットである。
本稿では,大規模言語モデル (LLM) による検索,複製,エビデンスグラウンドチェック,ラベル検証を併用して構築・品質制御パイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-31T03:29:30Z) - Auditing Disability Representation in Vision-Language Models [0.6987503477818553]
人中心画像の障害認識記述について検討する。
我々は,ペアニュートラル・プロンプト (NP) と障害文脈型プロンプト (DP) に基づくベンチマークを導入する。
9つの障害カテゴリにまたがるゼロショット設定で、15の最先端のオープンソースおよびクローズドソースビジョン言語モデルを評価する。
論文 参考訳(メタデータ) (2026-01-24T07:25:43Z) - AccessEval: Benchmarking Disability Bias in Large Language Models [3.160274015679566]
大きな言語モデル(LLM)は、さまざまなドメインにまたがってデプロイされることが多いが、実際のクエリの処理方法に相違があることが多い。
textbfAccessEval(アクセシビリティ評価)は、6つの現実世界ドメインと9つの障害タイプにわたる、21のクローズドおよびオープンソースLSMを評価するベンチマークである。
分析の結果,障害対応クエリに対する応答は,中立クエリに比べて負のトーン,ステレオタイピングの増大,事実エラーの増大がみられた。
論文 参考訳(メタデータ) (2025-09-22T17:49:03Z) - Who's Asking? Investigating Bias Through the Lens of Disability Framed Queries in LLMs [2.722784054643991]
大規模言語モデル(LLM)は、ユーザの人口統計特性を、単独で推測する。
これらの推論を形作る際の障害の手がかりは、ほとんど未発見のままである。
そこで本研究では,障害条件による人口統計バイアスを,最先端の8つのLLMに対して,初めて体系的に評価した。
論文 参考訳(メタデータ) (2025-08-18T21:03:09Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-26T20:01:44Z) - Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey [49.1574468325115]
我々は総合的な調査を行い、LALM評価のための体系的な分類法を提案する。
各カテゴリの詳細な概要と,この分野の課題について紹介する。
調査した論文の収集を公表し、現在進行中の分野の発展を支援するため、積極的に維持していく。
論文 参考訳(メタデータ) (2025-05-21T19:17:29Z) - Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。
i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。
この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (2025-04-26T07:48:52Z) - Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。
幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。
本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-11-21T16:09:05Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models [34.09419351705938]
本稿では,大規模言語モデル(LLM)を評価するためのメンタルヘルス関連タスクの包括的スイートであるPsyEvalについて述べる。
この包括的枠組みは、メンタルヘルス関連のタスクの独特な課題と複雑さを徹底的に評価するために設計されている。
論文 参考訳(メタデータ) (2023-11-15T18:32:27Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。