論文の概要: A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets
- arxiv url: http://arxiv.org/abs/2403.03909v2
- Date: Tue, 16 Apr 2024 10:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:46:16.357854
- Title: A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets
- Title(参考訳): 多言語NLPデータセットにおける言語多様性の透過的比較尺度
- Authors: Tanja Samardzic, Ximena Gutierrez, Christian Bentz, Steven Moran, Olga Pelloni,
- Abstract要約: 多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
- 参考スコア(独自算出の注目度): 1.1647644386277962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typologically diverse benchmarks are increasingly created to track the progress achieved in multilingual NLP. Linguistic diversity of these data sets is typically measured as the number of languages or language families included in the sample, but such measures do not consider structural properties of the included languages. In this paper, we propose assessing linguistic diversity of a data set against a reference language sample as a means of maximising linguistic diversity in the long run. We represent languages as sets of features and apply a version of the Jaccard index suitable for comparing sets of measures. In addition to the features extracted from typological data bases, we propose an automatic text-based measure, which can be used as a means of overcoming the well-known problem of data sparsity in manually collected features. Our diversity score is interpretable in terms of linguistic features and can identify the types of languages that are not represented in a data set. Using our method, we analyse a range of popular multilingual data sets (UD, Bible100, mBERT, XTREME, XGLUE, XNLI, XCOPA, TyDiQA, XQuAD). In addition to ranking these data sets, we find, for example, that (poly)synthetic languages are missing in almost all of them.
- Abstract(参考訳): 多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
これらのデータセットの言語学的多様性は、典型的にはサンプルに含まれる言語や言語族の数として測定されるが、そのような尺度は含まれた言語の構造的特性を考慮しない。
本稿では,言語多様性を長期にわたって最大化する手段として,参照言語サンプルに対するデータセットの言語多様性を評価することを提案する。
言語を特徴の集合として表現し、測定値の集合を比較するのに適した Jaccard index のバージョンを適用します。
タイプ的データベースから抽出された特徴に加えて,手作業で収集した特徴において,データ空間のよく知られた問題を克服する手段として,自動テキストベース尺度を提案する。
我々の多様性スコアは言語的特徴の観点から解釈可能であり、データセットに表現されていない言語のタイプを特定することができる。
本手法を用いて, 一般的な多言語データセット(UD, Bible100, mBERT, XTREME, XGLUE, XNLI, XCOPA, TyDiQA, XQuAD)を解析した。
これらのデータセットのランキングに加え、例えば、(多言語)合成言語がほとんどすべての言語に欠けていることが分かる。
関連論文リスト
- A Principled Framework for Evaluating on Typologically Diverse Languages [6.670393338187622]
本稿では,多種多様言語を選択するための言語サンプリングフレームワークを提案する。
我々の体系的手法は、NLPの従来の方法よりも、型論的に多様な言語選択を一貫して取り出すことがわかった。
論文 参考訳(メタデータ) (2024-07-06T09:31:02Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African
Languages [7.86385861664505]
原型的に多様性のある20のアフリカ諸言語を対象としたPOSデータセットとして最大であるMashokhaPOSを提案する。
本稿では,これらの言語に対して,UD(UniversalDependency)ガイドラインを用いてPOSを注釈付けする際の課題について論じる。
論文 参考訳(メタデータ) (2023-05-23T12:15:33Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。