論文の概要: The taggedPBC: Annotating a massive parallel corpus for crosslinguistic investigations
- arxiv url: http://arxiv.org/abs/2505.12560v1
- Date: Sun, 18 May 2025 22:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.308198
- Title: The taggedPBC: Annotating a massive parallel corpus for crosslinguistic investigations
- Title(参考訳): タグ付きPBC : 言語横断研究のための大規模並列コーパスの注釈
- Authors: Hiram Ring,
- Abstract要約: タグ付きPBCは1500以上の言語から1,800以上のposタグ付き並列テキストデータを含む。
このデータセットのタグの精度は、両方の既存のSOTAタグと高いソース言語との相関関係が示されている。
このデータセットから得られた新しい尺度であるN1比は,3つの類型的データベースにおける単語順の専門的決定と相関する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing datasets available for crosslinguistic investigations have tended to focus on large amounts of data for a small group of languages or a small amount of data for a large number of languages. This means that claims based on these datasets are limited in what they reveal about universal properties of the human language faculty. While this has begun to change through the efforts of projects seeking to develop tagged corpora for a large number of languages, such efforts are still constrained by limits on resources. The current paper reports on a large automatically tagged parallel dataset which has been developed to partially address this issue. The taggedPBC contains more than 1,800 sentences of pos-tagged parallel text data from over 1,500 languages, representing 133 language families and 111 isolates, dwarfing previously available resources. The accuracy of tags in this dataset is shown to correlate well with both existing SOTA taggers for high-resource languages (SpaCy, Trankit) as well as hand-tagged corpora (Universal Dependencies Treebanks). Additionally, a novel measure derived from this dataset, the N1 ratio, correlates with expert determinations of word order in three typological databases (WALS, Grambank, Autotyp) such that a Gaussian Naive Bayes classifier trained on this feature can accurately identify basic word order for languages not in those databases. While much work is still needed to expand and develop this dataset, the taggedPBC is an important step to enable corpus-based crosslinguistic investigations, and is made available for research and collaboration via GitHub.
- Abstract(参考訳): 言語横断的な調査に利用可能な既存のデータセットは、少数の言語群のための大量のデータや、少数の言語のための少量のデータに注目する傾向にある。
これは、これらのデータセットに基づくクレームは、人間の言語学部の普遍的な性質について明らかにするものに限られていることを意味する。
これは、タグ付けされたコーパスを多数の言語で開発しようとするプロジェクトの取り組みによって変化し始めているが、リソースの制限により、そのような取り組みは依然として制限されている。
現在の論文では、この問題に部分的に対処するために開発された、大規模な自動タグ付き並列データセットについて報告している。
タグ付きPBCは1500以上の言語から1,800以上のposタグ付き並列テキストデータを含む。
このデータセットのタグの精度は、高ソース言語(SpaCy、Trankit)用の既存のSOTAタグとハンドタグコーパス(Universal Dependencies Treebanks)の両方とよく相関している。
さらに、このデータセットから導かれる新しい尺度であるN1比は、3つのタイプボロジーデータベース(WALS、Grambank、Autotyp)における単語順序の専門的な決定と相関する。
このデータセットの拡張と開発にはまだ多くの作業が必要だが、タグ付きPBCはコーパスベースの言語横断的な調査を可能にするための重要なステップであり、GitHub経由での調査とコラボレーションが可能である。
関連論文リスト
- ESNLIR: A Spanish Multi-Genre Dataset with Causal Relationships [0.0]
自然言語推論(NLI)は、自然言語処理(NLP)分野において重要な分野である。
本稿ではNLI, ESNLIR, 特に因果関係を考慮したマルチジャンルのスペイン語データセットを作成することに焦点を当てる。
この結果は、ジャンルの豊かさが、モデルを一般化する能力の豊かさに本質的に寄与していることを示している。
論文 参考訳(メタデータ) (2025-03-11T18:32:16Z) - BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.456351723077088]
このデータセットは、まず英語以外の言語で手作りされている。
それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
論文 参考訳(メタデータ) (2025-02-06T18:56:37Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文 参考訳(メタデータ) (2023-05-15T09:43:32Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。