論文の概要: SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection
- arxiv url: http://arxiv.org/abs/2006.11572v2
- Date: Tue, 14 Jul 2020 11:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:47:08.743347
- Title: SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection
- Title(参考訳): sigmorphon 2020 タスク0: タイプ論的に多様な形態変化
- Authors: Ekaterina Vylomova, Jennifer White, Elizabeth Salesky, Sabrina J.
Mielke, Shijie Wu, Edoardo Ponti, Rowan Hall Maudslay, Ran Zmigrod, Josef
Valvoda, Svetlana Toldova, Francis Tyers, Elena Klyachko, Ilya Yegorov,
Natalia Krizhanovsky, Paula Czarnowska, Irene Nikkarinen, Andrew
Krizhanovsky, Tiago Pimentel, Lucas Torroba Hennigen, Christo Kirov, Garrett
Nicolai, Adina Williams, Antonios Anastasopoulos, Hilaria Cruz, Eleanor
Chodroff, Ryan Cotterell, Miikka Silfverberg, Mans Hulden
- Abstract要約: 形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
- 参考スコア(独自算出の注目度): 81.85463892070085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A broad goal in natural language processing (NLP) is to develop a system that
has the capacity to process any natural language. Most systems, however, are
developed using data from just one language such as English. The SIGMORPHON
2020 shared task on morphological reinflection aims to investigate systems'
ability to generalize across typologically distinct languages, many of which
are low resource. Systems were developed using data from 45 languages and just
5 language families, fine-tuned with data from an additional 45 languages and
10 language families (13 in total), and evaluated on all 90 languages. A total
of 22 systems (19 neural) from 10 teams were submitted to the task. All four
winning systems were neural (two monolingual transformers and two massively
multilingual RNN-based models with gated attention). Most teams demonstrate
utility of data hallucination and augmentation, ensembles, and multilingual
training for low-resource languages. Non-neural learners and manually designed
grammars showed competitive and even superior performance on some languages
(such as Ingrian, Tajik, Tagalog, Zarma, Lingala), especially with very limited
data. Some language families (Afro-Asiatic, Niger-Congo, Turkic) were
relatively easy for most systems and achieved over 90% mean accuracy while
others were more challenging.
- Abstract(参考訳): 自然言語処理(nlp)の幅広い目標は、任意の自然言語を処理する能力を持つシステムを開発することである。
しかし、ほとんどのシステムは英語のような1つの言語からのデータを使って開発されている。
sigmorphon 2020では、形態学的再帰に関する共通タスクが、タイプ論的に異なる言語を一般化するシステムの能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
タスクには10チームから合計22のシステム(19のニューラル)が提出された。
4つの勝利システムはすべてニューラルネットワーク(単言語トランスフォーマー2台と多言語rnnベースのモデル2台)であった。
ほとんどのチームは、低リソース言語のためのデータ幻覚と拡張、アンサンブル、多言語トレーニングの有用性を示しています。
非神経学習者や手動で設計した文法は、Ingrian, Tajik, Tagalog, Zarma, Lingalaなど一部の言語で特に限られたデータで、競争力があり、優れた性能を示した。
一部の言語ファミリー(afro-asiatic、niger-congo、turkic)は、ほとんどのシステムで比較的簡単であり、90%以上の精度を達成したが、他の言語はより困難であった。
関連論文リスト
- When Is Multilinguality a Curse? Language Modeling for 250 High- and
Low-Resource Languages [25.52470575274251]
私たちは250以上の言語で1万以上のモノリンガルおよび多言語言語モデルを事前訓練しています。
モデレーションでは、多言語データを追加することで、低リソース言語モデリングのパフォーマンスが向上する。
データセットのサイズが大きくなるにつれて、マルチリンガルデータの追加は、低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
論文 参考訳(メタデータ) (2023-11-15T18:47:42Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Probing Multilingual Language Models for Discourse [0.0]
XLM-RoBERTaファミリーのモデルが常に最高のパフォーマンスを示していることが分かりました。
また, モデル蒸留は, 文表現の言語間移動能力に悪影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-09T06:34:21Z) - MuRIL: Multilingual Representations for Indian Languages [3.529875637780551]
インドは、1369の合理化された言語と方言が全国で話されている多言語社会です。
それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で最適に動作します。
IN言語に特化した多言語言語モデルであるMuRILを提案します。
論文 参考訳(メタデータ) (2021-03-19T11:06:37Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。