Fugu-MT 論文翻訳(概要): A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets

論文の概要: A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets

arxiv url: http://arxiv.org/abs/2403.03909v1
Date: Wed, 6 Mar 2024 18:14:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 14:05:26.360950
Title: A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets
Title（参考訳）: 多言語NLPデータセットにおける言語多様性の透過的比較尺度
Authors: Tanja Samardzic, Ximena Gutierrez, Christian Bentz, Steven Moran, Olga Pelloni
Abstract要約: 多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
参考スコア（独自算出の注目度）: 1.2496128154771307
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Typologically diverse benchmarks are increasingly created to track the progress achieved in multilingual NLP. Linguistic diversity of these data sets is typically measured as the number of languages or language families included in the sample, but such measures do not consider structural properties of the included languages. In this paper, we propose assessing linguistic diversity of a data set against a reference language sample as a means of maximising linguistic diversity in the long run. We represent languages as sets of features and apply a version of the Jaccard index suitable for comparing sets of measures. In addition to the features extracted from typological data bases, we propose an automatic text-based measure, which can be used as a means of overcoming the well-known problem of data sparsity in manually collected features. Our diversity score is interpretable in terms of linguistic features and can identify the types of languages that are not represented in a data set. Using our method, we analyse a range of popular multilingual data sets (UD, Bible100, mBERT, XTREME, XGLUE, XNLI, XCOPA, TyDiQA, XQuAD). In addition to ranking these data sets, we find, for example, that (poly)synthetic languages are missing in almost all of them.
Abstract（参考訳）: 多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。これらのデータセットの言語学的多様性は、典型的にはサンプルに含まれる言語や言語族の数として測定されるが、そのような尺度は含まれた言語の構造的特性を考慮しない。本稿では,言語多様性を長期にわたって最大化する手段として,参照言語サンプルに対するデータセットの言語多様性を評価することを提案する。言語を特徴の集合として表現し、測定値の集合を比較するのに適した Jaccard index のバージョンを適用します。タイポロジーデータベースから抽出した特徴に加えて,手作業で収集した特徴におけるデータスパーシティの既知の問題を克服する手段として使用できる自動テキストベース尺度を提案する。我々の多様性スコアは言語的特徴の観点から解釈可能であり、データセットに表現されていない言語のタイプを特定することができる。本手法を用いて, 一般的な多言語データセット(UD, Bible100, mBERT, XTREME, XGLUE, XNLI, XCOPA, TyDiQA, XQuAD)を解析した。これらのデータセットのランク付けに加えて、例えば、(poly)合成言語は、ほとんどすべてのデータに欠けている。

関連論文リスト

What Language is This? Ask Your Tokenizer [32.28976119949841]
言語識別(LID)は多くの多言語自然言語処理パイプラインの重要なコンポーネントである。我々は,UnigramLMトークン化アルゴリズムに基づくシンプルで効率的なLID手法UniLIDを紹介する。我々の定式化は、データと計算効率が良く、既存のモデルを再訓練することなく、新しい言語の漸進的な追加をサポートしています。
論文参考訳（メタデータ） (2026-02-19T18:58:39Z)
Limited Linguistic Diversity in Embodied AI Datasets [6.956496363213419]
本稿では,広く使用されているVLA(Vision-Language-Action)データセットの体系的データセット監査について述べる。我々は,語彙的多様性,重複と重複,意味的類似性,構文的複雑性などを含む相補的な次元に沿って命令言語を定量化する。
論文参考訳（メタデータ） (2026-01-06T16:06:47Z)
LangGPS: Language Separability Guided Data Pre-Selection for Joint Multilingual Instruction Tuning [49.22807995935406]
大規模言語モデル(LLM)の多言語命令追従能力と下流性能を改善するための多言語命令チューニングは広く採用されている手法である。既存の選択法は、しばしばテキストの品質、多様性、タスク関連性といった特徴に基づいており、典型的には多言語データの固有の言語構造を見落としている。言語分離性によって導かれる軽量な2段階事前選択フレームワークであるLangGPSを提案する。
論文参考訳（メタデータ） (2025-11-13T12:02:32Z)
A Principled Framework for Evaluating on Typologically Diverse Languages [6.670393338187622]
本稿では,多種多様言語を選択するための言語サンプリングフレームワークを提案する。我々の体系的手法は、NLPの従来の方法よりも、型論的に多様な言語選択を一貫して取り出すことがわかった。
論文参考訳（メタデータ） (2024-07-06T09:31:02Z)
DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文参考訳（メタデータ） (2024-03-16T20:18:36Z)
GradSim: Gradient-Based Language Grouping for Effective Multilingual Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。 3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文参考訳（メタデータ） (2023-10-23T18:13:37Z)
MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African Languages [7.86385861664505]
原型的に多様性のある20のアフリカ諸言語を対象としたPOSデータセットとして最大であるMashokhaPOSを提案する。本稿では,これらの言語に対して,UD(UniversalDependency)ガイドラインを用いてPOSを注釈付けする際の課題について論じる。
論文参考訳（メタデータ） (2023-05-23T12:15:33Z)
XL-WiC: A Multilingual Benchmark for Evaluating Semantic Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2020-10-13T15:32:00Z)
Linguistic Typology Features from Text: Inferring the Sparse Features of World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。様々な言語型の特徴を確実に予測できることを示す。
論文参考訳（メタデータ） (2020-04-30T21:00:53Z)
Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。我々の表現は類型学を組み込み、言語関係と相関関係を強化する。次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文参考訳（メタデータ） (2020-04-30T16:25:39Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)
Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文参考訳（メタデータ） (2020-03-10T17:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。