論文の概要: Should LLMs, $\textit{like}$, Generate How Users Talk? Building Dialect-Accurate Dialog[ue]s Beyond the American Default with MDial
- arxiv url: http://arxiv.org/abs/2601.22888v1
- Date: Fri, 30 Jan 2026 12:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.425948
- Title: Should LLMs, $\textit{like}$, Generate How Users Talk? Building Dialect-Accurate Dialog[ue]s Beyond the American Default with MDial
- Title(参考訳): LLMs, $\textit{like}$, Generate How Users Talk? Building Dialog-Accurate Dialog[ue]s Beyond the American Default with MDial
- Authors: Jio Oh, Paul Vicinanza, Thomas Butler, Steven Euijong Whang, Dezhi Hong, Amani Namboori,
- Abstract要約: 16億人の英語話者の80%以上が標準アメリカ英語を使用していない。
我々は,多言語対話データを生成するための最初の大規模フレームワークである$textbfMDial$を紹介した。
- 参考スコア(独自算出の注目度): 13.016574005932311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: More than 80% of the 1.6 billion English speakers do not use Standard American English (SAE) and experience higher failure rates and stereotyped responses when interacting with LLMs as a result. Yet multi-dialectal performance remains underexplored. We introduce $\textbf{MDial}$, the first large-scale framework for generating multi-dialectal conversational data encompassing the three pillars of written dialect -- lexical (vocabulary), orthographic (spelling), and morphosyntactic (grammar) features -- for nine English dialects. Partnering with native linguists, we design an annotated and scalable rule-based LLM transformation to ensure precision. Our approach challenges the assumption that models should mirror users' morphosyntactic features, showing that up to 90% of the grammatical features of a dialect should not be reproduced by models. Independent evaluations confirm data quality, with annotators preferring MDial outputs over prior methods in 98% of pairwise comparisons for dialect naturalness. Using this pipeline, we construct the dialect-parallel $\textbf{MDialBench}$mark with 50k+ dialogs, resulting in 97k+ QA pairs, and evaluate 17 LLMs on dialect identification and response generation tasks. Even frontier models achieve under 70% accuracy, fail to reach 50% for Canadian English, and systematically misclassify non-SAE dialects as American or British. As dialect identification underpins natural language understanding, these errors risk cascading failures into downstream tasks.
- Abstract(参考訳): 16億人の英語話者の80%以上が標準アメリカ英語(SAE)を使用せず、結果としてLSMと対話する際により高い失敗率とステレオタイプ応答を経験している。
しかし、多言語のパフォーマンスはまだ探索されていない。
我々は,9つの英語方言に対して,語彙(語彙),正書法(テキスト),形態素(文法)の3つの柱を含む多言語会話データを生成するための,最初の大規模フレームワークである$\textbf{MDial}$を紹介した。
ネイティブ言語学者と組んで、精度を確保するために注釈付きでスケーラブルなルールベースのLLM変換を設計する。
提案手法は,モデルの文法的特徴の最大90%をモデルで再現すべきでないことを示す。
独立評価ではデータ品質が確認され、アノテータは、方言の自然性に対するペアワイズ比較の98%において、従来の手法よりもMDial出力を好む。
このパイプラインを用いて、50k以上のダイアログを持つ方言パラレル$\textbf{MDialBench}$markを構築し、97k以上のQAペアを生成し、方言識別および応答生成タスクについて17のLLMを評価する。
フロンティアモデルでさえ70%の精度で達成でき、カナダ英語では50%に達することができず、非SAE方言をアメリカ語やイギリス語と体系的に誤分類している。
方言の識別が自然言語理解の基盤となるため、これらのエラーは下流のタスクに障害をカスケードするリスクがある。
関連論文リスト
- Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。
我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文 参考訳(メタデータ) (2025-06-09T10:30:35Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Evaluating Dialect Robustness of Language Models via Conversation Understanding [2.8514881296685113]
私たちは「タブー」という語遊びをする人間同士の英語(アメリカ英語またはインド英語)の会話を使う。
目的語予測 (TWP) (textiti.e.$, predict the masked target word in a conversation) と目標語選択 (TWS) (textiti.e.$, select the most likely masked target word in a conversation) という2つの評価課題を定式化する。
私たちは、en-MV(en-USが方言情報を含むように変換される)とen-TR(方言情報を含む)の2つのサブセットを作成します。
論文 参考訳(メタデータ) (2024-05-09T11:38:23Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。