論文の概要: Evaluating Biases in Context-Dependent Health Questions
- arxiv url: http://arxiv.org/abs/2403.04858v1
- Date: Thu, 7 Mar 2024 19:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:58:57.523458
- Title: Evaluating Biases in Context-Dependent Health Questions
- Title(参考訳): コンテキスト依存型健康問題におけるバイアス評価
- Authors: Sharon Levy, Tahilin Sanchez Karver, William D. Adler, Michelle R.
Kaufman, Mark Dredze
- Abstract要約: 医療領域における文脈的質問を通じて,言語モデルのバイアスがいかに大きいかを検討する。
実験の結果, それぞれの属性に偏りがみられ, 成人女性の利用者が好まれることがわかった。
- 参考スコア(独自算出の注目度): 16.818168401472075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chat-based large language models have the opportunity to empower individuals
lacking high-quality healthcare access to receive personalized information
across a variety of topics. However, users may ask underspecified questions
that require additional context for a model to correctly answer. We study how
large language model biases are exhibited through these contextual questions in
the healthcare domain. To accomplish this, we curate a dataset of sexual and
reproductive healthcare questions that are dependent on age, sex, and location
attributes. We compare models' outputs with and without demographic context to
determine group alignment among our contextual questions. Our experiments
reveal biases in each of these attributes, where young adult female users are
favored.
- Abstract(参考訳): チャットベースの大規模言語モデルは、高品質な医療アクセスを欠いている個人に、さまざまなトピックでパーソナライズされた情報を受信する機会を与える。
しかし、ユーザーはモデルが正しく答えるために追加のコンテキストを必要とする不特定な質問をすることができる。
医療領域におけるこれらの文脈的質問を通して,言語モデルのバイアスがいかに大きいかを検討する。
これを達成するために、年齢、性別、位置属性に依存する性的および生殖的な医療質問のデータセットをキュレートする。
モデルのアウトプットを人口統計学的コンテキストと無関係に比較して,文脈質問間のグループアライメントを決定する。
実験の結果, それぞれの属性に偏りがみられ, 成人女性の利用者が好まれることがわかった。
関連論文リスト
- Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Emerging Challenges in Personalized Medicine: Assessing Demographic
Effects on Biomedical Question Answering Systems [0.0]
その結果,KGの回答の最大15%,テキストベースの回答の最大23%に,無関係な人口統計情報が変化することがわかった。
患者集団による不当な回答の変化は, 公平な懸念を生じさせる現象であり, 注意を払わなければならないと結論付けた。
論文 参考訳(メタデータ) (2023-10-16T16:45:52Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [54.764273324907684]
本稿では,いくつかのシステムから得られる様々な事実と帰属の軸を解析する評価研究について述べる。
まず、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。
また、専門家に言語モデルによる回答の修正を依頼し、32分野にわたる2177の質問からなる高品質の長文QAデータセットであるExpertQAを導いた。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Are Large Language Models Fit For Guided Reading? [6.85316573653194]
本稿では,大規模言語モデルが教育指導読解に参加する能力について考察する。
入力テキストから意味のある質問を生成し、多様な質問を生成し、学生が再読むべきテキストの一部を推薦する能力を評価する。
論文 参考訳(メタデータ) (2023-05-18T02:03:55Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - CHQ-Summ: A Dataset for Consumer Healthcare Question Summarization [21.331145794496774]
我々は1507のドメイン専門家によるアノテートされた消費者健康問題とそれに対応する要約を含む新しいデータセットであるCHQ-Summを紹介した。
データセットはコミュニティの質問応答フォーラムから派生したものだ。
我々は,複数の最先端要約モデル上でデータセットをベンチマークし,データセットの有効性を示す。
論文 参考訳(メタデータ) (2022-06-14T03:49:03Z) - What should I Ask: A Knowledge-driven Approach for Follow-up Questions
Generation in Conversational Surveys [63.51903260461746]
対話型調査における知識駆動型フォローアップ質問生成のための新しい課題を提案する。
そこで我々は,対話履歴とラベル付き知識を用いた人手によるフォローアップ質問の新しいデータセットを構築した。
次に,その課題に対する2段階の知識駆動モデルを提案する。
論文 参考訳(メタデータ) (2022-05-23T00:57:33Z) - Gender and Racial Bias in Visual Question Answering Datasets [24.075869811508404]
視覚的質問応答(VQA)データセットにおける性別と人種的偏見について検討する。
回答の分布は,男女関係の質問と,有害性・ステレオタイプ標本の存在とで大きく異なることが判明した。
この結果から,潜在的に有害なステレオタイプを考慮せずに,VQAデータセットを使用する危険性が示唆された。
論文 参考訳(メタデータ) (2022-05-17T07:33:24Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。