論文の概要: Auditing Disability Representation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.17348v1
- Date: Sat, 24 Jan 2026 07:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.613391
- Title: Auditing Disability Representation in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける障害表現の聴取
- Authors: Srikant Panda, Sourabh Singh Yadav, Palkesh Malviya,
- Abstract要約: 人中心画像の障害認識記述について検討する。
我々は,ペアニュートラル・プロンプト (NP) と障害文脈型プロンプト (DP) に基づくベンチマークを導入する。
9つの障害カテゴリにまたがるゼロショット設定で、15の最先端のオープンソースおよびクローズドソースビジョン言語モデルを評価する。
- 参考スコア(独自算出の注目度): 0.6987503477818553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly deployed in socially sensitive applications, yet their behavior with respect to disability remains underexplored. We study disability aware descriptions for person centric images, where models often transition from evidence grounded factual description to interpretation shift including introduction of unsupported inferences beyond observable visual evidence. To systematically analyze this phenomenon, we introduce a benchmark based on paired Neutral Prompts (NP) and Disability-Contextualised Prompts (DP) and evaluate 15 state-of-the-art open- and closed-source VLMs under a zero-shot setting across 9 disability categories. Our evaluation framework treats interpretive fidelity as core objective and combines standard text-based metrics capturing affective degradation through shifts in sentiment, social regard and response length with an LLM-as-judge protocol, validated by annotators with lived experience of disability. We find that introducing disability context consistently degrades interpretive fidelity, inducing interpretation shifts characterised by speculative inference, narrative elaboration, affective degradation and deficit oriented framing. These effects are further amplified along race and gender dimension. Finally, we demonstrate targeted prompting and preference fine-tuning effectively improves interpretive fidelity and reduces substantially interpretation shifts.
- Abstract(参考訳): 視覚言語モデル(VLM)は、社会的に敏感なアプリケーションにますます導入されているが、障害に対する彼らの行動はいまだに解明されていない。
本研究では,人中心画像の障害認識記述について検討し,そのモデルが事実記述を根拠とした証拠から,観察可能な視覚的証拠を超えた非サポート推論の導入を含む解釈シフトへと移行することがよくある。
この現象を体系的に解析するため,9つの障害カテゴリにまたがるゼロショット設定の下で,2組のニュートラル・プロンプト (NP) と障害文脈型プロンプト (DP) に基づくベンチマークを導入し,15の最先端のオープン・アンド・クローズド・ソースVLMを評価した。
評価フレームワークは, 感情, 社会的尊敬, 反応長のシフトを通じて感情の劣化を計測する標準テキストベースの指標と, 障害経験のあるアノテータによって検証されたLCM-as-judgeプロトコルを併用する。
障害コンテキストの導入は解釈的忠実度を常に低下させ,投機的推論,物語的実験,情緒的劣化,障害指向フレーミングによって特徴づけられる解釈変化を誘導する。
これらの効果は人種や性別によってさらに増幅される。
最後に、ターゲットのプロンプトと好みの微調整が解釈の忠実度を効果的に改善し、解釈シフトを大幅に低減することを示す。
関連論文リスト
- AccessEval: Benchmarking Disability Bias in Large Language Models [3.160274015679566]
大きな言語モデル(LLM)は、さまざまなドメインにまたがってデプロイされることが多いが、実際のクエリの処理方法に相違があることが多い。
textbfAccessEval(アクセシビリティ評価)は、6つの現実世界ドメインと9つの障害タイプにわたる、21のクローズドおよびオープンソースLSMを評価するベンチマークである。
分析の結果,障害対応クエリに対する応答は,中立クエリに比べて負のトーン,ステレオタイピングの増大,事実エラーの増大がみられた。
論文 参考訳(メタデータ) (2025-09-22T17:49:03Z) - Who's Asking? Investigating Bias Through the Lens of Disability Framed Queries in LLMs [2.722784054643991]
大規模言語モデル(LLM)は、ユーザの人口統計特性を、単独で推測する。
これらの推論を形作る際の障害の手がかりは、ほとんど未発見のままである。
そこで本研究では,障害条件による人口統計バイアスを,最先端の8つのLLMに対して,初めて体系的に評価した。
論文 参考訳(メタデータ) (2025-08-18T21:03:09Z) - Reasoning Beyond Labels: Measuring LLM Sentiment in Low-Resource, Culturally Nuanced Contexts [10.492471013369782]
本稿では、感情を文脈に依存し、文化的に埋め込まれた構成として扱う枠組みを提案する。
我々は,大言語モデル(LLM)が,ナイロビの若手健康グループからのWhatsAppメッセージの感情にどのような影響を与えるかを評価する。
論文 参考訳(メタデータ) (2025-08-06T08:27:55Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。