論文の概要: Should LLMs, $\textit{like}$, Generate How Users Talk? Building Dialect-Accurate Dialog[ue]s Beyond the American Default with MDial
- arxiv url: http://arxiv.org/abs/2601.22888v1
- Date: Fri, 30 Jan 2026 12:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.425948
- Title: Should LLMs, $\textit{like}$, Generate How Users Talk? Building Dialect-Accurate Dialog[ue]s Beyond the American Default with MDial
- Title(参考訳): LLMs, $\textit{like}$, Generate How Users Talk? Building Dialog-Accurate Dialog[ue]s Beyond the American Default with MDial
- Authors: Jio Oh, Paul Vicinanza, Thomas Butler, Steven Euijong Whang, Dezhi Hong, Amani Namboori,
- Abstract要約: 16億人の英語話者の80%以上が標準アメリカ英語を使用していない。
我々は,多言語対話データを生成するための最初の大規模フレームワークである$textbfMDial$を紹介した。
- 参考スコア(独自算出の注目度): 13.016574005932311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: More than 80% of the 1.6 billion English speakers do not use Standard American English (SAE) and experience higher failure rates and stereotyped responses when interacting with LLMs as a result. Yet multi-dialectal performance remains underexplored. We introduce $\textbf{MDial}$, the first large-scale framework for generating multi-dialectal conversational data encompassing the three pillars of written dialect -- lexical (vocabulary), orthographic (spelling), and morphosyntactic (grammar) features -- for nine English dialects. Partnering with native linguists, we design an annotated and scalable rule-based LLM transformation to ensure precision. Our approach challenges the assumption that models should mirror users' morphosyntactic features, showing that up to 90% of the grammatical features of a dialect should not be reproduced by models. Independent evaluations confirm data quality, with annotators preferring MDial outputs over prior methods in 98% of pairwise comparisons for dialect naturalness. Using this pipeline, we construct the dialect-parallel $\textbf{MDialBench}$mark with 50k+ dialogs, resulting in 97k+ QA pairs, and evaluate 17 LLMs on dialect identification and response generation tasks. Even frontier models achieve under 70% accuracy, fail to reach 50% for Canadian English, and systematically misclassify non-SAE dialects as American or British. As dialect identification underpins natural language understanding, these errors risk cascading failures into downstream tasks.
- Abstract(参考訳): 16億人の英語話者の80%以上が標準アメリカ英語(SAE)を使用せず、結果としてLSMと対話する際により高い失敗率とステレオタイプ応答を経験している。
しかし、多言語のパフォーマンスはまだ探索されていない。
我々は,9つの英語方言に対して,語彙(語彙),正書法(テキスト),形態素(文法)の3つの柱を含む多言語会話データを生成するための,最初の大規模フレームワークである$\textbf{MDial}$を紹介した。
ネイティブ言語学者と組んで、精度を確保するために注釈付きでスケーラブルなルールベースのLLM変換を設計する。
提案手法は,モデルの文法的特徴の最大90%をモデルで再現すべきでないことを示す。
独立評価ではデータ品質が確認され、アノテータは、方言の自然性に対するペアワイズ比較の98%において、従来の手法よりもMDial出力を好む。
このパイプラインを用いて、50k以上のダイアログを持つ方言パラレル$\textbf{MDialBench}$markを構築し、97k以上のQAペアを生成し、方言識別および応答生成タスクについて17のLLMを評価する。
フロンティアモデルでさえ70%の精度で達成でき、カナダ英語では50%に達することができず、非SAE方言をアメリカ語やイギリス語と体系的に誤分類している。
方言の識別が自然言語理解の基盤となるため、これらのエラーは下流のタスクに障害をカスケードするリスクがある。
関連論文リスト
- Making Large Language Models Speak Tulu: Structured Prompting for an Extremely Low-Resource Language [1.0742675209112622]
制御プロンプト下では,構造化プロンプトだけで基本的な会話能力を引き出すことができるかを検討する。
我々は、明示的な文法文書、関連する言語からの高確率トークンの抑制のための負の制約、ロマン化標準化、そして自己再生による品質制御された合成データ生成を組み合わせる。
本手法は,85%の精度で語彙汚染を80%から5%に低減する。
論文 参考訳(メタデータ) (2026-02-17T06:20:09Z) - DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation [111.94720088481614]
多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか?
6つの共通英語方言にまたがる大規模ベンチマークを構築した。
マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
論文 参考訳(メタデータ) (2025-10-16T17:56:55Z) - Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。
我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文 参考訳(メタデータ) (2025-06-09T10:30:35Z) - LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。
我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。
評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-18T07:24:13Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Evaluating Dialect Robustness of Language Models via Conversation Understanding [2.8514881296685113]
私たちは「タブー」という語遊びをする人間同士の英語(アメリカ英語またはインド英語)の会話を使う。
目的語予測 (TWP) (textiti.e.$, predict the masked target word in a conversation) と目標語選択 (TWS) (textiti.e.$, select the most likely masked target word in a conversation) という2つの評価課題を定式化する。
私たちは、en-MV(en-USが方言情報を含むように変換される)とen-TR(方言情報を含む)の2つのサブセットを作成します。
論文 参考訳(メタデータ) (2024-05-09T11:38:23Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Towards spoken dialect identification of Irish [5.1121440213561335]
アイルランド語は方言やアクセントの多様性に富んでいる。
アイルランド語ASRの方言バイアスを研究する最近の研究によると、アルスター方言のパフォーマンスはコンナヒト方言やマンスター方言よりも一貫して劣っている。
本研究では,アイルランド語の方言識別について検討し,そのようなシステムを音声認識パイプラインに組み込むことを目的とした。
論文 参考訳(メタデータ) (2023-07-14T16:03:09Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。