論文の概要: Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination
- arxiv url: http://arxiv.org/abs/2406.08818v1
- Date: Thu, 13 Jun 2024 05:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:18:27.681257
- Title: Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination
- Title(参考訳): ChatGPTにおける言語バイアス:言語モデルによる方言識別の強化
- Authors: Eve Fleisig, Genevieve Smith, Madeline Bossi, Ishita Rustagi, Xavier Yin, Dan Klein,
- Abstract要約: ChatGPTは、英語の10の方言(Standard American English、Standard British English、および世界中で広く話されている8つの非標準品種)をカバーしている。
GPT-3.5 Turbo と GPT-4 を各品種の母語話者のテキストで誘導し,言語的特徴アノテーションと母語話者評価を用いて応答を解析した。
GPT-3.5 Turbo と GPT-4 は,非標準型話者の被害を悪化させるような言語的差別を示す。
- 参考スコア(独自算出の注目度): 29.162606891172615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a large-scale study of linguistic bias exhibited by ChatGPT covering ten dialects of English (Standard American English, Standard British English, and eight widely spoken non-"standard" varieties from around the world). We prompted GPT-3.5 Turbo and GPT-4 with text by native speakers of each variety and analyzed the responses via detailed linguistic feature annotation and native speaker evaluation. We find that the models default to "standard" varieties of English; based on evaluation by native speakers, we also find that model responses to non-"standard" varieties consistently exhibit a range of issues: lack of comprehension (10% worse compared to "standard" varieties), stereotyping (16% worse), demeaning content (22% worse), and condescending responses (12% worse). We also find that if these models are asked to imitate the writing style of prompts in non-"standard" varieties, they produce text that exhibits lower comprehension of the input and is especially prone to stereotyping. GPT-4 improves on GPT-3.5 in terms of comprehension, warmth, and friendliness, but it also results in a marked increase in stereotyping (+17%). The results suggest that GPT-3.5 Turbo and GPT-4 exhibit linguistic discrimination in ways that can exacerbate harms for speakers of non-"standard" varieties.
- Abstract(参考訳): 本稿では,ChatGPTが英語の方言10種類(スタンダード・アメリカン・イングリッシュ(Standard American English),スタンダード・イングリッシュ(Standard British English),および世界中から広く話されている8種類の非標準的方言)をカバーする言語バイアスについて,大規模な研究を行った。
GPT-3.5 Turbo と GPT-4 を各品種の母語話者のテキストで誘導し,詳細な言語的特徴アノテーションと母語話者評価を用いて応答を解析した。
ネイティブスピーカーによる評価に基づいて、非標準型に対するモデル応答は、理解の欠如(標準型に比べて10%悪い)、ステレオタイピング(16%悪い)、内容の削除(22%悪い)、導出応答(12%悪い)といった問題に一貫して現れている。
また、これらのモデルが「標準」でない品種のプロンプトの書体スタイルを模倣するよう要求された場合、入力の理解度が低く、特にステレオタイピングが困難であるテキストを生成する。
GPT-4は、理解、温かさ、親和性の点でGPT-3.5を改善するが、ステレオタイピング(+17%)が顕著に増加する。
その結果, GPT-3.5 Turbo と GPT-4 は,非標準型話者の被害を悪化させるような言語的差別を示すことが示唆された。
関連論文リスト
- GPT-3.5 for Grammatical Error Correction [0.4757470449749875]
本稿では,複数の言語における文法的誤り訂正(GEC)に対する GPT-3.5 の適用について検討する。
我々は,いくつかの手法を用いて,GPT-3.5により提案される補正を自動評価する。
英語では、GPT-3.5は高いリコールを示し、流動的な修正を生成し、文のセマンティクスを一般的に保存する。
しかし、英語とロシア語の双方に対する人間の評価は、その強い誤り検出能力にもかかわらず、GPT-3.5はいくつかのエラータイプに悩まされていることを明らかにしている。
論文 参考訳(メタデータ) (2024-05-14T09:51:09Z) - Quite Good, but Not Enough: Nationality Bias in Large Language Models -- A Case Study of ChatGPT [4.998396762666333]
本研究では,テキスト生成のための大規模言語モデルであるChatGPT(GPT-3.5)の国籍バイアスについて検討する。
この研究は、195カ国、4つの温度設定、3つの異なるプロンプトタイプをカバーし、中国語と英語の国籍記述に関する4,680の談話を生み出している。
論文 参考訳(メタデータ) (2024-05-11T12:11:52Z) - ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models [0.276240219662896]
本研究は,メディアバイアス識別ベンチマーク(MBIB)を活用して,この問題に答えようとするものである。
メディアバイアスの6つのカテゴリを区別し、BART、ConvBERT、GPT-2などの微調整されたモデルに差をつけ、ChatGPTの能力を評価する。
ChatGPTはヘイトスピーチとテキストレベルの文脈バイアスを検出するために微調整されたモデルと同等に機能するが、他のバイアス検出の微妙な要素で困難に直面している。
論文 参考訳(メタデータ) (2024-03-29T13:12:09Z) - Verbing Weirds Language (Models): Evaluation of English Zero-Derivation in Five LLMs [45.906366638174624]
本稿では,変換に関する大規模言語モデルの振る舞いに関する最初の研究を報告する。
本研究では,モデルが音声の非典型的部分を持つ構成において,単語よりも一般化できる程度をテストするタスクを設計する。
GPT-4 は GPT-3.5 に次いでタスク上で最高の性能を発揮するが,オープンソースの言語モデルでもそれを実現することができる。
論文 参考訳(メタデータ) (2024-03-26T16:45:27Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties [0.0]
私たちは、その根本にあるバイアス(データそのもの)の問題に対処することを目指しています。
英語の多言語話者の割合が低い国からのツイートのデータセットをキュレートする。
ベストプラクティスに従って、我々の成長するコーパスには7カ国から170,800のツイートが写っている。
論文 参考訳(メタデータ) (2024-01-21T13:18:20Z) - Shepherd: A Critic for Language Model Generation [72.24142023628694]
Shepherdは、応答を批判し、改善を提案するために特別に調整された言語モデルである。
このアプローチのコアとなるのは、コミュニティからのフィードバックと人間のアノテーションからキュレートした、高品質なフィードバックデータセットです。
人間の評価では、Shepherdは他のモデルを厳密に上回り、ChatGPTと密接な関係にある。
論文 参考訳(メタデータ) (2023-08-08T21:23:23Z) - Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine [97.8609714773255]
機械翻訳におけるChatGPTの評価には,翻訳プロンプト,多言語翻訳,翻訳堅牢性などが含まれる。
ChatGPTは商用翻訳製品と競合するが、低リソースや遠方の言語では遅れている。
GPT-4エンジンの打ち上げにより、ChatGPTの翻訳性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-01-20T08:51:36Z) - NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations
On-the-Fly [61.77957329364812]
本稿では,対話型多言語・多文化規範発見の新たな課題に対処する枠組みを提案する。
NormSAGEはノルム発見タスクと会話コンテキストを表す有向質問を通じてノルムに関する知識を導き出す。
さらに、発見される規範が正しいことを保証する自己検証メカニズムにより、言語モデル幻覚のリスクに対処する。
論文 参考訳(メタデータ) (2022-10-16T18:30:05Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。