論文の概要: Mapping Languages: The Corpus of Global Language Use
- arxiv url: http://arxiv.org/abs/2004.00798v1
- Date: Thu, 2 Apr 2020 03:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 10:12:43.546383
- Title: Mapping Languages: The Corpus of Global Language Use
- Title(参考訳): 言語マッピング:グローバル言語利用のコーパス
- Authors: Jonathan Dunn
- Abstract要約: 本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes a web-based corpus of global language use with a focus
on how this corpus can be used for data-driven language mapping. First, the
corpus provides a representation of where national varieties of major languages
are used (e.g., English, Arabic, Russian) together with consistently collected
data for each variety. Second, the paper evaluates a language identification
model that supports more local languages with smaller sample sizes than
alternative off-the-shelf models. Improved language identification is essential
for moving beyond majority languages. Given the focus on language mapping, the
paper analyzes how well this digital language data represents actual
populations by (i) systematically comparing the corpus with demographic
ground-truth data and (ii) triangulating the corpus with an alternate
Twitter-based dataset. In total, the corpus contains 423 billion words
representing 148 languages (with over 1 million words from each language) and
158 countries (again with over 1 million words from each country), all
distilled from Common Crawl web data. The main contribution of this paper, in
addition to describing this publicly-available corpus, is to provide a
comprehensive analysis of the relationship between two sources of digital data
(the web and Twitter) as well as their connection to underlying populations.
- Abstract(参考訳): 本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
まず、コーパスは、主要な言語(例えば、英語、アラビア語、ロシア語)の国別品種の表現と、各品種について一貫して収集されたデータを提供する。
第二に,本研究では,サンプルサイズの小さいローカル言語をサポートする言語識別モデルについて,他の市販モデルよりも評価する。
言語識別の改善は、多数言語を超えるために不可欠である。
言語マッピングに焦点をあてて、このデジタル言語データが実際の人口をどれだけよく表すかを分析する。
(i)人口統計データとコーパスを体系的に比較し、
(ii) コーパスを別のTwitterベースのデータセットでトライアングルする。
コーパスには148の言語(各言語から100万語以上)と158の国(それぞれ100万語以上)の計423億語が含まれており、すべてCommon CrawlのWebデータから抽出されている。
本論文の主な貢献は、この公用コーパスを説明することに加えて、2つのデジタルデータソース(WebとTwitter)の関係と、その基盤となる人口との関係を包括的に分析することである。
関連論文リスト
- Validating and Exploring Large Geographic Corpora [0.76146285961466]
ニュージーランド英語のような特定の言語国を表すサブコーパスの品質向上に3つの手法が用いられている。
評価の結果, サブコーパスの妥当性は清掃段階ごとに改善されているが, この改善は言語や人口に不均一に分散していることがわかった。
論文 参考訳(メタデータ) (2024-03-13T02:46:17Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Corpus Similarity Measures Remain Robust Across Diverse Languages [0.0]
本稿では、レジスタ予測タスクを用いて39言語にわたる周波数ベースコーパス類似度測定実験を行った。
目的は、(i)同じ言語から異なるコーパスの間の距離を定量化し、(ii)個々のコーパスの均一性を定量化することである。
その結果, コーパス類似度の測定は, 言語家族, 書記システム, 形態素の種類にまたがる妥当性を保っていることがわかった。
論文 参考訳(メタデータ) (2022-06-09T08:17:16Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual
Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。
データセットは1言語あたり約30,000の注釈付きツイートで構成されている。
私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文 参考訳(メタデータ) (2022-01-20T16:28:06Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。