論文の概要: Evaluating LLMs for Gender Disparities in Notable Persons
- arxiv url: http://arxiv.org/abs/2403.09148v1
- Date: Thu, 14 Mar 2024 07:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:26:58.624415
- Title: Evaluating LLMs for Gender Disparities in Notable Persons
- Title(参考訳): 著名人における性差を考慮したLSMの評価
- Authors: Lauren Rhue, Sofie Goethals, Arun Sundararajan,
- Abstract要約: 本研究では,事実情報の検索にLarge Language Models (LLMs) を用いることを検討した。
事実的不正確な「ハロゲン化」反応を作り出すことや、全く答えることができないことへの懸念に対処する。
- 参考スコア(独自算出の注目度): 0.40964539027092906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study examines the use of Large Language Models (LLMs) for retrieving factual information, addressing concerns over their propensity to produce factually incorrect "hallucinated" responses or to altogether decline to even answer prompt at all. Specifically, it investigates the presence of gender-based biases in LLMs' responses to factual inquiries. This paper takes a multi-pronged approach to evaluating GPT models by evaluating fairness across multiple dimensions of recall, hallucinations and declinations. Our findings reveal discernible gender disparities in the responses generated by GPT-3.5. While advancements in GPT-4 have led to improvements in performance, they have not fully eradicated these gender disparities, notably in instances where responses are declined. The study further explores the origins of these disparities by examining the influence of gender associations in prompts and the homogeneity in the responses.
- Abstract(参考訳): 本研究では, 事実情報の検索にLarge Language Models (LLMs) を用いることを検討し, 事実的不正確な「ハロシン化」応答や, 答えのプロンプトを全く含まないことへの懸念に対処する。
具体的には,LLMの事実調査に対する反応における性別に基づく偏見の存在について検討する。
本稿では,複数次元のリコール,幻覚,偏見の公平性を評価することによって,GPTモデルの評価に多角的アプローチを採る。
以上の結果から, GPT-3.5の反応における性別差が明らかとなった。
GPT-4の進歩は、パフォーマンスの改善につながっているが、特に反応が低下するケースにおいて、これらの男女格差を完全に根絶していない。
この研究は、ジェンダー・アソシエーションがインプロンプトに与える影響と反応の均一性を調べることによって、これらの格差の起源をさらに探求する。
関連論文リスト
- Everyone deserves their voice to be heard: Analyzing Predictive Gender Bias in ASR Models Applied to Dutch Speech Data [13.91630413828167]
本研究は,オランダ語音声データに基づくWhisperモデルの性能格差の同定に焦点をあてる。
性別グループ間の単語誤り率,文字誤り率,BERTに基づく意味的類似性を解析した。
論文 参考訳(メタデータ) (2024-11-14T13:29:09Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Gender Bias in LLM-generated Interview Responses [1.6124402884077915]
本研究は, モデル, 質問タイプ, 職種にまたがって, LLM生成面接応答の多面的監査を行うための3つのLCMを評価した。
その結果,男女の偏見は一貫しており,性別のステレオタイプや仕事の優位性と密接に一致していることが判明した。
論文 参考訳(メタデータ) (2024-10-28T05:08:08Z) - Exploring Social Desirability Response Bias in Large Language Models: Evidence from GPT-4 Simulations [4.172974580485295]
大規模言語モデル(LLM)は、社会調査において人間のような反応をシミュレートするために用いられる。
社会的望ましくない反応(SDR)バイアスのようなバイアスを生じているかどうかはまだ不明である。
この研究は、LLMを使って人間とLLMの双方の偏見を調査する潜在的な道筋を強調している。
論文 参考訳(メタデータ) (2024-10-20T16:28:24Z) - ChatGPT vs Social Surveys: Probing the Objective and Subjective Human Society [7.281887764378982]
我々はChatGPT-3.5を用いてサンプリングプロセスをシミュレートし、2020年の米国人口から6つの社会経済特性を生んだ。
我々は、GPTの主観的態度を探るため、所得格差やジェンダーの役割に関する質問に対する回答を分析した。
以上の結果から、性別と年齢の一致は、2020年のアメリカにおける実際の人口と一致しているが、人種や教育団体の分布にミスマッチがあることが判明した。
論文 参考訳(メタデータ) (2024-09-04T10:33:37Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Diverse, but Divisive: LLMs Can Exaggerate Gender Differences in Opinion
Related to Harms of Misinformation [8.066880413153187]
本稿では,多言語モデル(LLM)が誤報の被害を評価する際に,様々なグループの視点を反映できるかどうかを検討する。
TopicMisinfoデータセットには,さまざまなトピックから160件のファクトチェックされたクレームが含まれている。
GPT 3.5-Turboは、経験的に観察された意見の男女差を反映するが、これらの差の程度を増幅する。
論文 参考訳(メタデータ) (2024-01-29T20:50:28Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - Towards Understanding Gender-Seniority Compound Bias in Natural Language
Generation [64.65911758042914]
本研究では,事前学習したニューラルジェネレーションモデルにおける性別バイアスの程度に,高齢者がどのような影響を及ぼすかを検討する。
以上の結果から, GPT-2は, 両領域において, 女性を中年, 男性を中年として考えることにより, 偏見を増幅することが示された。
以上の結果から, GPT-2を用いて構築したNLPアプリケーションは, プロの能力において女性に害を与える可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。