論文の概要: Quantifying the Dialect Gap and its Correlates Across Languages
- arxiv url: http://arxiv.org/abs/2310.15135v1
- Date: Mon, 23 Oct 2023 17:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:17:18.843207
- Title: Quantifying the Dialect Gap and its Correlates Across Languages
- Title(参考訳): 方言間のギャップとその相関関係の定量化
- Authors: Anjali Kantharuban, Ivan Vuli\'c, and Anna Korhonen
- Abstract要約: この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
- 参考スコア(独自算出の注目度): 69.18461982439031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Historically, researchers and consumers have noticed a decrease in quality
when applying NLP tools to minority variants of languages (i.e. Puerto Rican
Spanish or Swiss German), but studies exploring this have been limited to a
select few languages. Additionally, past studies have mainly been conducted in
a monolingual context, so cross-linguistic trends have not been identified and
tied to external factors. In this work, we conduct a comprehensive evaluation
of the most influential, state-of-the-art large language models (LLMs) across
two high-use applications, machine translation and automatic speech
recognition, to assess their functionality on the regional dialects of several
high- and low-resource languages. Additionally, we analyze how the regional
dialect gap is correlated with economic, social, and linguistic factors. The
impact of training data, including related factors like dataset size and its
construction procedure, is shown to be significant but not consistent across
models or languages, meaning a one-size-fits-all approach cannot be taken in
solving the dialect gap. This work will lay the foundation for furthering the
field of dialectal NLP by laying out evident disparities and identifying
possible pathways for addressing them through mindful data collection.
- Abstract(参考訳): 歴史的に、研究者や消費者は少数言語(プエルトリコ語やスイスドイツ語など)にNLPツールを適用する際の品質の低下に気付いてきたが、この研究は一部の言語に限られている。
さらに、過去の研究は主に単言語的な文脈で行われたため、言語間関係の傾向は特定されず、外部要因と結びついている。
本研究では,機械翻訳と自動音声認識という2つの高用法において,最も影響力のある最先端の大規模言語モデル(llms)の包括的評価を行い,それらの機能評価を行った。
さらに,地域方言格差と経済的・社会的・言語的要因との関係について分析した。
データセットのサイズや構築手順といった関連する要因を含むトレーニングデータの影響は、モデルや言語間では重要ではあるが一貫性がないことが示されている。
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
関連論文リスト
- Connecting Ideas in 'Lower-Resource' Scenarios: NLP for National Varieties, Creoles and Other Low-resource Scenarios [11.460959151493055]
少数の言語のベンチマークによる優れた結果にもかかわらず、大規模な言語モデルは、低リソースのシナリオにある言語からテキストを処理するのに苦労している。
このチュートリアルでは、自然言語処理(NLP)研究における共通の課題、アプローチ、テーマを特定し、データ・ポーア・コンテキストに固有の障害に直面し克服する。
論文 参考訳(メタデータ) (2024-09-19T11:48:42Z) - Exploring Diachronic and Diatopic Changes in Dialect Continua: Tasks, Datasets and Challenges [2.572144535177391]
我々は3つの言語族(スラヴ語、ロマンス語、ゲルマン語)から5つの方言にまたがる9つのタスクとデータセットを批判的に評価する。
本稿では,方言使用の経時的変化,方言データセットの信頼性,話者特性の重要性,方言の限られた範囲,データ収集における倫理的配慮に関する5つのオープンな課題を概説する。
言語の種類や方言の包括的計算手法やデータセットに関する今後の研究に光を当てることを願っています。
論文 参考訳(メタデータ) (2024-07-04T15:38:38Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World [2.0777058026628583]
NLP世界の言語格差は近年広く認識されている問題である。
本稿では,世界の言語に存在する格差を包括的に分析する。
論文 参考訳(メタデータ) (2022-10-16T12:50:30Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。