論文の概要: Underneath the Numbers: Quantitative and Qualitative Gender Fairness in LLMs for Depression Prediction
- arxiv url: http://arxiv.org/abs/2406.08183v2
- Date: Fri, 14 Jun 2024 09:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:54:02.027173
- Title: Underneath the Numbers: Quantitative and Qualitative Gender Fairness in LLMs for Depression Prediction
- Title(参考訳): 抑うつ予測のためのLSMにおける定量的・質的ジェンダーフェアネス
- Authors: Micol Spitale, Jiaee Cheong, Hatice Gunes,
- Abstract要約: 本研究は、抑うつ検出のための機械学習モデルにおいて、性差の程度を調査するための最初の試みである。
定量的評価の結果,ChatGPTは様々なパフォーマンス指標で最高の性能を示した。
また,ジェンダーフェアネスを質的に評価するために,LLMが採用するテーマをいくつか挙げた。
- 参考スコア(独自算出の注目度): 10.702148378522578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show bias in many machine learning models for depression detection, but bias in LLMs for this task remains unexplored. This work presents the first attempt to investigate the degree of gender bias present in existing LLMs (ChatGPT, LLaMA 2, and Bard) using both quantitative and qualitative approaches. From our quantitative evaluation, we found that ChatGPT performs the best across various performance metrics and LLaMA 2 outperforms other LLMs in terms of group fairness metrics. As qualitative fairness evaluation remains an open research question we propose several strategies (e.g., word count, thematic analysis) to investigate whether and how a qualitative evaluation can provide valuable insights for bias analysis beyond what is possible with quantitative evaluation. We found that ChatGPT consistently provides a more comprehensive, well-reasoned explanation for its prediction compared to LLaMA 2. We have also identified several themes adopted by LLMs to qualitatively evaluate gender fairness. We hope our results can be used as a stepping stone towards future attempts at improving qualitative evaluation of fairness for LLMs especially for high-stakes tasks such as depression detection.
- Abstract(参考訳): 近年の研究では、抑うつ検出のための多くの機械学習モデルに偏りがあるが、このタスクのLCMの偏りは未解明のままである。
本研究は,既存のLCM (ChatGPT, LLaMA 2, Bard) における性差の量的および質的アプローチを用いて, 性別バイアスの程度を調査するための最初の試みである。
定量的評価の結果,ChatGPTは様々なパフォーマンス指標で最高の性能を示し,LLaMA 2はグループフェアネス指標で他のLCMよりも優れていた。
質的公正度評価はオープンな研究課題として残り、質的公正度評価が定量的評価の可能な範囲を超えてバイアス分析に有意義な洞察を与えるかどうかを調査するためのいくつかの戦略(言葉数、テーマ分析など)を提案する。
LLaMA 2と比べて、ChatGPTはより包括的で、合理的な予測を提供する。
また,ジェンダーフェアネスを質的に評価するために,LLMが採用するテーマをいくつか挙げた。
今後,LLMの公平性の質的評価,特に抑うつ検出などの高精細なタスクの質的評価を行おうとする試みとして,本研究の成果が期待できる。
関連論文リスト
- Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Fairness in Large Language Models: A Taxonomic Survey [2.669847575321326]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
多くの実世界のアプリケーションで有望な性能を示したにもかかわらず、これらのアルゴリズムのほとんどは公平さを考慮に入れていない。
論文 参考訳(メタデータ) (2024-03-31T22:22:53Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。