論文の概要: GPT is Not an Annotator: The Necessity of Human Annotation in Fairness Benchmark Construction
- arxiv url: http://arxiv.org/abs/2405.15760v1
- Date: Fri, 24 May 2024 17:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 12:51:30.741716
- Title: GPT is Not an Annotator: The Necessity of Human Annotation in Fairness Benchmark Construction
- Title(参考訳): GPTはアノテーションではない:フェアネスベンチマーク構築における人間のアノテーションの必要性
- Authors: Virginia K. Felkner, Jennifer A. Thompson, Jonathan May,
- Abstract要約: 本稿では,GPT-3.5-Turboがバイアスベンチマークデータセットの開発に有効かどうかを検討する。
我々は、以前の研究をユダヤ人コミュニティと反ユダヤ主義という、新しいコミュニティと一連の偏見に拡張する。
分析の結果,GPT-3.5-Turboはアノテーション処理の性能が悪く,出力に許容できない品質問題が発生することがわかった。
- 参考スコア(独自算出の注目度): 25.17740839996496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social biases in LLMs are usually measured via bias benchmark datasets. Current benchmarks have limitations in scope, grounding, quality, and human effort required. Previous work has shown success with a community-sourced, rather than crowd-sourced, approach to benchmark development. However, this work still required considerable effort from annotators with relevant lived experience. This paper explores whether an LLM (specifically, GPT-3.5-Turbo) can assist with the task of developing a bias benchmark dataset from responses to an open-ended community survey. We also extend the previous work to a new community and set of biases: the Jewish community and antisemitism. Our analysis shows that GPT-3.5-Turbo has poor performance on this annotation task and produces unacceptable quality issues in its output. Thus, we conclude that GPT-3.5-Turbo is not an appropriate substitute for human annotation in sensitive tasks related to social biases, and that its use actually negates many of the benefits of community-sourcing bias benchmarks.
- Abstract(参考訳): LLMの社会的バイアスは通常、バイアスベンチマークデータセットによって測定される。
現在のベンチマークには、スコープ、接地、品質、人的労力の制限がある。
これまでの研究は、クラウドソースではなく、コミュニティソースによるベンチマーク開発で成功している。
しかし、この研究には、関連する生活経験を持つアノテーターによるかなりの努力が必要であった。
本稿では,LPM(特にGPT-3.5-Turbo)が,オープンエンドコミュニティサーベイへの回答からバイアスベンチマークデータセットの開発を支援することができるかどうかを考察する。
我々は、ユダヤ人コミュニティと反ユダヤ主義という、新しいコミュニティと一連の偏見に、以前の作業を拡張した。
分析の結果,GPT-3.5-Turboはアノテーション処理の性能が悪く,出力に許容できない品質問題が発生することがわかった。
したがって、GPT-3.5-Turboは、社会的バイアスに関連するセンシティブなタスクにおける人間のアノテーションの適切な代用ではない。
関連論文リスト
- JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
本稿では,医療・金融・建設産業のリアルかつ匿名化された履歴データセットを用いたフレームワークについて紹介する。
第2に,反現実的アプローチに基づく新しい統計的・計算的採用バイアス指標を提案する。
第三に、私たちは10の最先端のLCMにおける採用バイアスを分析します。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - Investigating Annotator Bias in Large Language Models for Hate Speech Detection [6.25300580594605]
本稿では,ヘイトスピーチデータに注釈をつける際に,Large Language Models (LLMs) に存在するバイアスについて考察する。
具体的には、これらのカテゴリ内の非常に脆弱なグループを対象として、アノテータバイアスを分析します。
我々は、この研究を行うために、私たちのカスタムヘイトスピーチ検出データセットであるHateSpeechCorpusを紹介します。
論文 参考訳(メタデータ) (2024-06-17T00:18:31Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - SuperTweetEval: A Challenging, Unified and Heterogeneous Benchmark for
Social Media NLP Research [33.698581876383074]
ソーシャルメディアのSuperTweetEvalにおいて,NLP評価のための統一ベンチマークを導入する。
SuperTweetEvalで幅広いモデルのパフォーマンスをベンチマークした結果、最近の言語モデリングの進歩にもかかわらず、ソーシャルメディアは依然として困難な状態にあることが示唆された。
論文 参考訳(メタデータ) (2023-10-23T09:48:25Z) - WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in
Large Language Models [18.922402889762488]
WinoQueerは、大きな言語モデル(LLM)がLGBTQ+コミュニティに有害なバイアスをエンコードするかどうかを測定するために設計されたベンチマークである。
我々はこのベンチマークをいくつかの人気のあるLCMに適用し、オフザシェルフモデルが一般に相当なアンチキーバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-26T22:07:33Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for
Text Generation [89.41378346080603]
この研究は、PLMに基づくメトリクスにおける社会バイアスに関する最初の体系的研究である。
PLMをベースとした一般的な指標は,従来の6つの属性の指標よりも社会的偏見が著しく高いことが実証された。
さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。
論文 参考訳(メタデータ) (2022-10-14T08:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。