論文の概要: The Hrunting of AI: Where and How to Improve English Dialectal Fairness
- arxiv url: http://arxiv.org/abs/2603.15187v1
- Date: Mon, 16 Mar 2026 12:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.211382
- Title: The Hrunting of AI: Where and How to Improve English Dialectal Fairness
- Title(参考訳): AIのハンティング:英語の方言のフェアネスをいかに改善するか
- Authors: Wei Li, Adrian de Wynter,
- Abstract要約: ヨークシャー、ゲオルディ、コーニッシュは、まれに研究される3つの英語方言である。
LLM生成品質を決定する際の人間と人間の合意は、LSM-as-a-judgeのパフォーマンスに直接影響を及ぼす。
- 参考スコア(独自算出の注目度): 13.11272455685601
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is known that large language models (LLMs) underperform in English dialects, and that improving them is difficult due to data scarcity. In this work we investigate how quality and availability impact the feasibility of improving LLMs in this context. For this, we evaluate three rarely-studied English dialects (Yorkshire, Geordie, and Cornish), plus African-American Vernacular English, and West Frisian as control. We find that human-human agreement when determining LLM generation quality directly impacts LLM-as-a-judge performance. That is, LLM-human agreement mimics the human-human agreement pattern, and so do metrics such as accuracy. It is an issue because LLM-human agreement measures an LLM's alignment with the human consensus; and hence raises questions about the feasibility of improving LLM performance in locales where low populations induce low agreement. We also note that fine-tuning does not eradicate, and might amplify, this pattern in English dialects. But also find encouraging signals, such as some LLMs' ability to generate high-quality data, thus enabling scalability. We argue that data must be carefully evaluated to ensure fair and inclusive LLM improvement; and, in the presence of scarcity, new tools are needed to handle the pattern found.
- Abstract(参考訳): 英語方言では大きな言語モデル(LLM)が不十分であり,データ不足のため改善が難しいことが知られている。
本研究では,LLMの品質と可用性が,この文脈におけるLLMの改善可能性に与える影響について検討する。
このために、まれに研究されていない3つの英語方言(ヨークシャー、ジョルディー、コーニッシュ)と、アフリカ系アメリカ人の英語、西フリジア語を対照として評価した。
LLM生成品質を決定する際の人間と人間の合意は、LSM-as-a-judgeのパフォーマンスに直接影響を及ぼす。
つまり、LLM-人的合意は人間-人的合意パターンを模倣するものであり、精度などの指標である。
LLM-人的合意は、LLMと人間のコンセンサスとの整合性を測定するため、低人口の地域においてLLMのパフォーマンス向上の可能性についての疑問が提起される。
また、微調整は英語方言におけるこのパターンを根絶せず、増幅するかもしれないことに留意する。
しかし、いくつかのLLMが高品質なデータを生成する能力があり、拡張性を実現するなど、奨励的なシグナルも見出すことができる。
データは公平かつ包括的なLCM改善を保証するために慎重に評価されなければならない、と我々は主張する。
関連論文リスト
- Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - HumT DumT: Measuring and controlling human-like language in LLMs [29.82328120944693]
ヒューマンライクな言語は、ユーザーエクスペリエンスを改善するかもしれないが、騙し、過度な信頼、ステレオタイピングにつながる可能性がある。
LLMの相対確率に基づくテキストデータにHumT, 人風のトーン, その他の社会的知覚の指標を導入する。
モデル性能を保ちながら,HumTを用いて人間の声調を体系的に制御し,抑える手法であるDumTを紹介する。
論文 参考訳(メタデータ) (2025-02-18T20:04:09Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文 参考訳(メタデータ) (2023-05-23T07:55:34Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。