論文の概要: Analyzing Dialectical Biases in LLMs for Knowledge and Reasoning Benchmarks
- arxiv url: http://arxiv.org/abs/2510.00962v1
- Date: Wed, 01 Oct 2025 14:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.615347
- Title: Analyzing Dialectical Biases in LLMs for Knowledge and Reasoning Benchmarks
- Title(参考訳): 知識と推論ベンチマークのためのLLMにおける辞書バイアスの解析
- Authors: Eileen Pan, Anna Seo Gyeong Choi, Maartje ter Hoeve, Skyler Seto, Allison Koenecke,
- Abstract要約: 我々は、アメリカ英語の「標準」質問を「標準」でない方言の変種としてタイプし、複数の選択質問応答タスクに与える影響を分析した。
個々の文法規則は性能に様々な影響を与えるが、他の規則よりも簡潔なものもある。
- 参考スコア(独自算出の注目度): 13.576753089930499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are ubiquitous in modern day natural language processing. However, previous work has shown degraded LLM performance for under-represented English dialects. We analyze the effects of typifying "standard" American English language questions as non-"standard" dialectal variants on multiple choice question answering tasks and find up to a 20% reduction in accuracy. Additionally, we investigate the grammatical basis of under-performance in non-"standard" English questions. We find that individual grammatical rules have varied effects on performance, but some are more consequential than others: three specific grammar rules (existential "it", zero copula, and y'all) can explain the majority of performance degradation observed in multiple dialects. We call for future work to investigate bias mitigation methods focused on individual, high-impact grammatical structures.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現代の自然言語処理においてユビキタスである。
しかし、以前の研究は、低表現の英語方言に対するLLM性能の低下を示してきた。
我々は、アメリカ英語の「標準」質問を「標準」でない方言の変種として分類し、複数の選択質問応答タスクに与える影響を分析し、最大20%の精度の低下を見出した。
さらに,非「標準」英語質問における低パフォーマンスの文法的基礎について検討する。
個々の文法規則は性能に様々な影響を与えるが、他のものよりも簡潔なものもある: 3つの特定の文法規則(存在的「イット」、「ゼロコプラ」、「イオール」)は、複数の方言で観察されるパフォーマンス劣化の大部分を説明することができる。
我々は,個々の高インパクト文法構造に着目したバイアス緩和手法の今後の研究を求めている。
関連論文リスト
- Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Language models align with human judgments on key grammatical constructions [24.187439110055404]
確立したプラクティスを用いて,大規模言語モデル(LLM)のパフォーマンスを再評価する。
モデル全体の精度は高いが、人間の言語学的判断のきめ細かい変化も捉えることができる。
論文 参考訳(メタデータ) (2024-01-19T19:36:54Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。