Fugu-MT 論文翻訳(概要): Evaluating Biases in Context-Dependent Health Questions

論文の概要: Evaluating Biases in Context-Dependent Health Questions

arxiv url: http://arxiv.org/abs/2403.04858v1
Date: Thu, 7 Mar 2024 19:15:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 21:58:57.523458
Title: Evaluating Biases in Context-Dependent Health Questions
Title（参考訳）: コンテキスト依存型健康問題におけるバイアス評価
Authors: Sharon Levy, Tahilin Sanchez Karver, William D. Adler, Michelle R. Kaufman, Mark Dredze
Abstract要約: 医療領域における文脈的質問を通じて,言語モデルのバイアスがいかに大きいかを検討する。実験の結果, それぞれの属性に偏りがみられ, 成人女性の利用者が好まれることがわかった。
参考スコア（独自算出の注目度）: 16.818168401472075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chat-based large language models have the opportunity to empower individuals lacking high-quality healthcare access to receive personalized information across a variety of topics. However, users may ask underspecified questions that require additional context for a model to correctly answer. We study how large language model biases are exhibited through these contextual questions in the healthcare domain. To accomplish this, we curate a dataset of sexual and reproductive healthcare questions that are dependent on age, sex, and location attributes. We compare models' outputs with and without demographic context to determine group alignment among our contextual questions. Our experiments reveal biases in each of these attributes, where young adult female users are favored.
Abstract（参考訳）: チャットベースの大規模言語モデルは、高品質な医療アクセスを欠いている個人に、さまざまなトピックでパーソナライズされた情報を受信する機会を与える。しかし、ユーザーはモデルが正しく答えるために追加のコンテキストを必要とする不特定な質問をすることができる。医療領域におけるこれらの文脈的質問を通して,言語モデルのバイアスがいかに大きいかを検討する。これを達成するために、年齢、性別、位置属性に依存する性的および生殖的な医療質問のデータセットをキュレートする。モデルのアウトプットを人口統計学的コンテキストと無関係に比較して,文脈質問間のグループアライメントを決定する。実験の結果, それぞれの属性に偏りがみられ, 成人女性の利用者が好まれることがわかった。

関連論文リスト

Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。 MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。 LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文参考訳（メタデータ） (2025-06-12T08:47:40Z)
How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading [60.19226384241482]
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。言語モデルを用いてこのような質問を生成するための様々なアプローチを探索する。我々は、そのような質問が読解に与える影響を理解するために、人間の研究を行う。
論文参考訳（メタデータ） (2024-07-19T13:42:56Z)
GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。既存のLVLMでは男女差が広くみられた。
論文参考訳（メタデータ） (2024-06-30T05:55:15Z)
CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文参考訳（メタデータ） (2024-06-25T17:45:26Z)
Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文参考訳（メタデータ） (2024-02-22T04:14:10Z)
Emerging Challenges in Personalized Medicine: Assessing Demographic Effects on Biomedical Question Answering Systems [0.0]
その結果,KGの回答の最大15%,テキストベースの回答の最大23%に,無関係な人口統計情報が変化することがわかった。患者集団による不当な回答の変化は, 公平な懸念を生じさせる現象であり, 注意を払わなければならないと結論付けた。
論文参考訳（メタデータ） (2023-10-16T16:45:52Z)
ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文参考訳（メタデータ） (2023-09-14T16:54:34Z)
Are Large Language Models Fit For Guided Reading? [6.85316573653194]
本稿では,大規模言語モデルが教育指導読解に参加する能力について考察する。入力テキストから意味のある質問を生成し、多様な質問を生成し、学生が再読むべきテキストの一部を推薦する能力を評価する。
論文参考訳（メタデータ） (2023-05-18T02:03:55Z)
CHQ-Summ: A Dataset for Consumer Healthcare Question Summarization [21.331145794496774]
我々は1507のドメイン専門家によるアノテートされた消費者健康問題とそれに対応する要約を含む新しいデータセットであるCHQ-Summを紹介した。データセットはコミュニティの質問応答フォーラムから派生したものだ。我々は,複数の最先端要約モデル上でデータセットをベンチマークし,データセットの有効性を示す。
論文参考訳（メタデータ） (2022-06-14T03:49:03Z)
Gender and Racial Bias in Visual Question Answering Datasets [24.075869811508404]
視覚的質問応答(VQA)データセットにおける性別と人種的偏見について検討する。回答の分布は,男女関係の質問と,有害性・ステレオタイプ標本の存在とで大きく異なることが判明した。この結果から,潜在的に有害なステレオタイプを考慮せずに,VQAデータセットを使用する危険性が示唆された。
論文参考訳（メタデータ） (2022-05-17T07:33:24Z)
Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。我々は,読者が情報を求めるための実践的な戦略に携わることを示す。我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文参考訳（メタデータ） (2020-10-04T19:03:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。