Fugu-MT 論文翻訳(概要): One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks

論文の概要: One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks

arxiv url: http://arxiv.org/abs/2410.11005v1
Date: Mon, 14 Oct 2024 18:44:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.440705
Title: One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks
Title（参考訳）: 一つの言語と多くのギャップ:推論課題における大規模言語モデルの弁別公平性とロバスト性の評価
Authors: Fangru Lin, Shaoguang Mao, Emanuele La Malfa, Valentin Hofmann, Adrian de Wynter, Jing Yao, Si-Qing Chen, Michael Wooldridge, Furu Wei,
Abstract要約: 本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
参考スコア（独自算出の注目度）: 55.35278531907263
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language is not monolithic. While many benchmarks are used as proxies to systematically estimate Large Language Models' (LLM) performance in real-life tasks, they tend to ignore the nuances of within-language variation and thus fail to model the experience of speakers of minority dialects. Focusing on African American Vernacular English (AAVE), we present the first study on LLMs' fairness and robustness to a dialect in canonical reasoning tasks (algorithm, math, logic, and comprehensive reasoning). We hire AAVE speakers, including experts with computer science backgrounds, to rewrite seven popular benchmarks, such as HumanEval and GSM8K. The result of this effort is ReDial, a dialectal benchmark comprising $1.2K+$ parallel query pairs in Standardized English and AAVE. We use ReDial to evaluate state-of-the-art LLMs, including GPT-4o/4/3.5-turbo, LLaMA-3.1/3, Mistral, and Phi-3. We find that, compared to Standardized English, almost all of these widely used models show significant brittleness and unfairness to queries in AAVE. Furthermore, AAVE queries can degrade performance more substantially than misspelled texts in Standardized English, even when LLMs are more familiar with the AAVE queries. Finally, asking models to rephrase questions in Standardized English does not close the performance gap but generally introduces higher costs. Overall, our findings indicate that LLMs provide unfair service to dialect users in complex reasoning tasks. Code can be found at https://github.com/fangru-lin/redial_dialect_robustness_fairness.git.
Abstract（参考訳）: 言語はモノリシックではない。多くのベンチマークは、リアルタイムタスクにおける大規模言語モデル(LLM)のパフォーマンスを体系的に推定するためにプロキシとして使用されるが、言語内変異のニュアンスを無視し、少数方言話者の経験をモデル化することができない傾向にある。アフリカン・アメリカン・バーナクラ・イングリッシュ (AAVE) に着目し,LLMの公平性と堅牢性に関する最初の研究を標準的推論タスク(アルゴリズム,数学,論理学,包括的推論)における方言に提示する。我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。この取り組みの結果、ReDialは標準英語とAAVEの12K+$並列クエリペアからなる弁証的ベンチマークである。我々はReDialを用いて、GPT-4o/4/3.5-turbo、LLaMA-3.1/3、Mistral、Phi-3を含む最先端のLCMを評価する。標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。さらに、AAVEクエリは、ALMがAAVEクエリに精通している場合でも、標準英語のミススペルテキストよりも性能が大幅に低下する可能性がある。最後に、標準英語で質問を言い換えるようモデルに求めることは、パフォーマンスのギャップを埋めるものではなく、一般的により高いコストをもたらす。以上の結果から,LLMは複雑な推論タスクにおいて,方言利用者に不公平なサービスを提供していることが示唆された。コードはhttps://github.com/fangru-lin/redial_dialect_robustness_fairness.gitにある。

関連論文リスト

mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks [11.996399504336624]
我々は,大規模言語モデル(LLM)の性能を幅広いタスクで評価するための新しいベンチマークであるmSTEBを紹介する。我々は,Gemini 2.0 Flash や GPT-4o (Audio) などの主要な LLM や Qwen 2 Audio や Gemma 3 27B といった最先端のオープンモデルの性能を評価する。
論文参考訳（メタデータ） (2025-06-10T03:15:08Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs [3.4020284996081216]
我々は、サンスクリット語、古代ギリシア語、ラテン語の3つの古典的な言語における自然言語理解に焦点を当てている。まず、名前付きエンティティ認識と機械翻訳を英語に翻訳する。検索拡張生成手法を用いてコンテキストを組み込むことにより,性能が著しく向上することを示す。
論文参考訳（メタデータ） (2025-05-19T14:30:10Z)
Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。 LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-06T05:15:34Z)
Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs [8.146860674148044]
我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。 3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
論文参考訳（メタデータ） (2025-01-06T07:57:51Z)
Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文参考訳（メタデータ） (2024-11-02T05:10:50Z)
AAVENUE: Detecting LLM Biases on NLU Tasks in AAVE via a Novel Benchmark [3.1927733045184885]
AAVENUE は、AAVE と Standard American English の NLU タスクにおける大きな言語モデル (LLM) のパフォーマンスを評価するためのベンチマークである。 AAVENUE と VALUE の翻訳を,5つの人気のある LLM と,フルーエンシ,BARTScore,品質,コヒーレンス,理解可能性などの総合的な指標を用いて比較した。評価の結果, LLM は AAVE に翻訳されたバージョンよりも, SAE タスクで一貫した性能が向上し, 固有のバイアスが強調された。
論文参考訳（メタデータ） (2024-08-27T07:56:35Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。 LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文参考訳（メタデータ） (2024-04-03T04:53:14Z)
Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ [16.637598165238934]
大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。我々は、27.4kのテスト質問に答える基本的なオープンエンド質問のための新しい銀標準ベンチマークであるMultiQを紹介する。
論文参考訳（メタデータ） (2024-03-06T16:01:44Z)
Eliciting Better Multilingual Structured Reasoning from LLMs through Code [17.870002864331322]
我々は6言語にまたがる4つのタスクを網羅する,xSTREETと呼ばれる多言語構造推論と説明データセットを提案する。 xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。このギャップを緩和する2つの方法を提案する。
論文参考訳（メタデータ） (2024-03-05T00:48:56Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。 HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文参考訳（メタデータ） (2023-11-02T01:17:29Z)
Spoken Language Intelligence of Large Language Models for Language Learning [3.1964044595140217]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文参考訳（メタデータ） (2023-08-28T12:47:41Z)
VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文参考訳（メタデータ） (2022-04-06T18:30:56Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。