論文の概要: Large Language Models Discriminate Against Speakers of German Dialects
- arxiv url: http://arxiv.org/abs/2509.13835v1
- Date: Wed, 17 Sep 2025 09:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.797088
- Title: Large Language Models Discriminate Against Speakers of German Dialects
- Title(参考訳): ドイツ語話者を識別する大規模言語モデル
- Authors: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense,
- Abstract要約: ドイツでは、人口の40%以上が地域方言を話している。
このようなステレオタイプが大規模言語モデル(LLM)によってミラーされているかを検討する。
言語的人口統計学(ドイツ語方言話者)の明示的なラベル付けは、方言使用法のような暗黙の手がかり以上のバイアスを増幅する。
- 参考スコア(独自算出の注目度): 44.05620251584259
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dialects represent a significant component of human culture and are found across all regions of the world. In Germany, more than 40% of the population speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural importance, individuals speaking dialects often face negative societal stereotypes. We examine whether such stereotypes are mirrored by large language models (LLMs). We draw on the sociolinguistic literature on dialect perception to analyze traits commonly associated with dialect speakers. Based on these traits, we assess the dialect naming bias and dialect usage bias expressed by LLMs in two tasks: an association task and a decision task. To assess a model's dialect usage bias, we construct a novel evaluation corpus that pairs sentences from seven regional German dialects (e.g., Alemannic and Bavarian) with their standard German counterparts. We find that: (1) in the association task, all evaluated LLMs exhibit significant dialect naming and dialect usage bias against German dialect speakers, reflected in negative adjective associations; (2) all models reproduce these dialect naming and dialect usage biases in their decision making; and (3) contrary to prior work showing minimal bias with explicit demographic mentions, we find that explicitly labeling linguistic demographics--German dialect speakers--amplifies bias more than implicit cues like dialect usage.
- Abstract(参考訳): 方言は人間の文化の重要な要素であり、世界中のすべての地域で見られる。
ドイツでは、人口の40%以上が地域方言を話している(Adler and Hansen, 2022)。
しかし、文化的な重要性にもかかわらず、方言を話す個人は、しばしば否定的な社会的ステレオタイプに直面している。
このようなステレオタイプが大規模言語モデル(LLM)によってミラーされているかを検討する。
我々は、方言の認識に関する社会言語文学に基づいて、方言話者に共通する特徴を分析する。
これらの特徴に基づいて,LLMが表現する方言識別バイアスと方言使用バイアスを,関連課題と決定課題の2つのタスクで評価する。
モデルの方言使用バイアスを評価するため,ドイツ語の標準方言(eg, Alemannic, Bavarian)とドイツ語の標準方言(eg, Alemannic, Bavarian)の文をペアリングする新しい評価コーパスを構築した。
1) 関連課題において, 評価されたLLMは, ドイツ方言話者に対して, 負の形容詞的関連性に反映された有意な方言命名と方言使用バイアスを示すこと, (2) 全てのモデルは, 決定においてこれらの方言命名と方言使用バイアスを再現すること, 3) 明示的な人口統計学的言及と最小限のバイアスを示す先行研究とは対照的に, ドイツ方言話者は, 方言使用のような暗黙的な手がかり以上のバイアスを増幅することを見出した。
関連論文リスト
- A Multi-Dialectal Dataset for German Dialect ASR and Dialect-to-Standard Speech Translation [19.535404632372042]
Betthupferlは、ドイツ南東部で話されている3つの方言群における4時間の読み上げ音声を含む評価データセットである。
我々は、方言と標準ドイツ語の両方の転写を提供し、それら間の言語的差異を分析する。
我々は、標準ドイツ語への音声翻訳における多言語ASRモデルのベンチマークを行い、その出力が方言と標準文字にどの程度似ているかの相違を見出した。
論文 参考訳(メタデータ) (2025-06-03T14:02:52Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Disentangling Dialect from Social Bias via Multitask Learning to Improve Fairness [16.746758715820324]
本稿では,構文的および語彙的バリエーションを組み込む補助課題として,方言をモデル化するマルチタスク学習手法を提案する。
アフリカ系アメリカ人の英語方言を用いた実験では、共通学習アプローチと方言モデリングを補完することで、その公正さが向上することを示す実証的証拠を提供する。
その結果、マルチタスク学習は最先端の性能を達成し、偏りのある言語の性質をより確実に検出するのに役立つことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:39:39Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。