論文の概要: Evaluating Biases in Context-Dependent Health Questions
- arxiv url: http://arxiv.org/abs/2403.04858v1
- Date: Thu, 7 Mar 2024 19:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:58:57.523458
- Title: Evaluating Biases in Context-Dependent Health Questions
- Title(参考訳): コンテキスト依存型健康問題におけるバイアス評価
- Authors: Sharon Levy, Tahilin Sanchez Karver, William D. Adler, Michelle R.
Kaufman, Mark Dredze
- Abstract要約: 医療領域における文脈的質問を通じて,言語モデルのバイアスがいかに大きいかを検討する。
実験の結果, それぞれの属性に偏りがみられ, 成人女性の利用者が好まれることがわかった。
- 参考スコア(独自算出の注目度): 16.818168401472075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chat-based large language models have the opportunity to empower individuals
lacking high-quality healthcare access to receive personalized information
across a variety of topics. However, users may ask underspecified questions
that require additional context for a model to correctly answer. We study how
large language model biases are exhibited through these contextual questions in
the healthcare domain. To accomplish this, we curate a dataset of sexual and
reproductive healthcare questions that are dependent on age, sex, and location
attributes. We compare models' outputs with and without demographic context to
determine group alignment among our contextual questions. Our experiments
reveal biases in each of these attributes, where young adult female users are
favored.
- Abstract(参考訳): チャットベースの大規模言語モデルは、高品質な医療アクセスを欠いている個人に、さまざまなトピックでパーソナライズされた情報を受信する機会を与える。
しかし、ユーザーはモデルが正しく答えるために追加のコンテキストを必要とする不特定な質問をすることができる。
医療領域におけるこれらの文脈的質問を通して,言語モデルのバイアスがいかに大きいかを検討する。
これを達成するために、年齢、性別、位置属性に依存する性的および生殖的な医療質問のデータセットをキュレートする。
モデルのアウトプットを人口統計学的コンテキストと無関係に比較して,文脈質問間のグループアライメントを決定する。
実験の結果, それぞれの属性に偏りがみられ, 成人女性の利用者が好まれることがわかった。
関連論文リスト
- How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading [60.19226384241482]
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。
言語モデルを用いてこのような質問を生成するための様々なアプローチを探索する。
我々は、そのような質問が読解に与える影響を理解するために、人間の研究を行う。
論文 参考訳(メタデータ) (2024-07-19T13:42:56Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Emerging Challenges in Personalized Medicine: Assessing Demographic
Effects on Biomedical Question Answering Systems [0.0]
その結果,KGの回答の最大15%,テキストベースの回答の最大23%に,無関係な人口統計情報が変化することがわかった。
患者集団による不当な回答の変化は, 公平な懸念を生じさせる現象であり, 注意を払わなければならないと結論付けた。
論文 参考訳(メタデータ) (2023-10-16T16:45:52Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Are Large Language Models Fit For Guided Reading? [6.85316573653194]
本稿では,大規模言語モデルが教育指導読解に参加する能力について考察する。
入力テキストから意味のある質問を生成し、多様な質問を生成し、学生が再読むべきテキストの一部を推薦する能力を評価する。
論文 参考訳(メタデータ) (2023-05-18T02:03:55Z) - CHQ-Summ: A Dataset for Consumer Healthcare Question Summarization [21.331145794496774]
我々は1507のドメイン専門家によるアノテートされた消費者健康問題とそれに対応する要約を含む新しいデータセットであるCHQ-Summを紹介した。
データセットはコミュニティの質問応答フォーラムから派生したものだ。
我々は,複数の最先端要約モデル上でデータセットをベンチマークし,データセットの有効性を示す。
論文 参考訳(メタデータ) (2022-06-14T03:49:03Z) - Gender and Racial Bias in Visual Question Answering Datasets [24.075869811508404]
視覚的質問応答(VQA)データセットにおける性別と人種的偏見について検討する。
回答の分布は,男女関係の質問と,有害性・ステレオタイプ標本の存在とで大きく異なることが判明した。
この結果から,潜在的に有害なステレオタイプを考慮せずに,VQAデータセットを使用する危険性が示唆された。
論文 参考訳(メタデータ) (2022-05-17T07:33:24Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。