論文の概要: DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages
- arxiv url: http://arxiv.org/abs/2403.11009v2
- Date: Sun, 7 Jul 2024 18:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 02:09:29.136782
- Title: DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages
- Title(参考訳): DIALECTBENCH: 方言、変種および近縁言語のためのNLPベンチマーク
- Authors: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos,
- Abstract要約: DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
- 参考スコア(独自算出の注目度): 49.38663048447942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language technologies should be judged on their usefulness in real-world use cases. An often overlooked aspect in natural language processing (NLP) research and evaluation is language variation in the form of non-standard dialects or language varieties (hereafter, varieties). Most NLP benchmarks are limited to standard language varieties. To fill this gap, we propose DIALECTBENCH, the first-ever large-scale benchmark for NLP on varieties, which aggregates an extensive set of task-varied variety datasets (10 text-level tasks covering 281 varieties). This allows for a comprehensive evaluation of NLP system performance on different language varieties. We provide substantial evidence of performance disparities between standard and non-standard language varieties, and we also identify language clusters with large performance divergence across tasks. We believe DIALECTBENCH provides a comprehensive view of the current state of NLP for language varieties and one step towards advancing it further. Code/data: https://github.com/ffaisal93/DialectBench
- Abstract(参考訳): 言語技術は、実世界のユースケースにおけるそれらの有用性に基づいて判断されるべきである。
自然言語処理(NLP)の研究と評価において、しばしば見落とされがちな側面は、非標準方言または言語多様体(以下、変種)の形の言語変化である。
ほとんどのNLPベンチマークは標準言語に限られている。
このギャップを埋めるために、DIALECTBENCHを提案する。DIALECTBENCHは、NLPの多種多様なデータセット(281種類をカバーする10のテキストレベルタスク)を集約した、多様体上で初めての大規模ベンチマークである。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
我々は,標準言語と非標準言語間の性能格差の相当な証拠を提供するとともに,タスク間の性能差が大きい言語クラスタも同定する。
我々は、DIALECTBENCHが言語品種のNLPの現状を包括的に把握し、さらに進むための一歩だと信じている。
コード/データ:https://github.com/ffaisal93/DialectBench
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark [28.472036496534116]
bgGLUEはブルガリアにおける自然言語理解(NLU)タスクの言語モデルを評価するためのベンチマークである。
ブルガリア語のための事前訓練された言語モデルの最初の体系的評価を行い、ベンチマークの9つのタスクを比較して比較した。
論文 参考訳(メタデータ) (2023-06-04T12:54:00Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation [13.947879344871442]
言語コードスイッチング評価(LinCE)のためのベンチマークを提案する。
LinCEは4つの異なるコード変更言語ペアをカバーする10のコーパスを結合する。
LSTM,ELMo,多言語BERTなど,さまざまな人気モデルのスコアを提供する。
論文 参考訳(メタデータ) (2020-05-09T00:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。