論文の概要: SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection
- arxiv url: http://arxiv.org/abs/2006.11572v2
- Date: Tue, 14 Jul 2020 11:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:47:08.743347
- Title: SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection
- Title(参考訳): sigmorphon 2020 タスク0: タイプ論的に多様な形態変化
- Authors: Ekaterina Vylomova, Jennifer White, Elizabeth Salesky, Sabrina J.
Mielke, Shijie Wu, Edoardo Ponti, Rowan Hall Maudslay, Ran Zmigrod, Josef
Valvoda, Svetlana Toldova, Francis Tyers, Elena Klyachko, Ilya Yegorov,
Natalia Krizhanovsky, Paula Czarnowska, Irene Nikkarinen, Andrew
Krizhanovsky, Tiago Pimentel, Lucas Torroba Hennigen, Christo Kirov, Garrett
Nicolai, Adina Williams, Antonios Anastasopoulos, Hilaria Cruz, Eleanor
Chodroff, Ryan Cotterell, Miikka Silfverberg, Mans Hulden
- Abstract要約: 形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
- 参考スコア(独自算出の注目度): 81.85463892070085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A broad goal in natural language processing (NLP) is to develop a system that
has the capacity to process any natural language. Most systems, however, are
developed using data from just one language such as English. The SIGMORPHON
2020 shared task on morphological reinflection aims to investigate systems'
ability to generalize across typologically distinct languages, many of which
are low resource. Systems were developed using data from 45 languages and just
5 language families, fine-tuned with data from an additional 45 languages and
10 language families (13 in total), and evaluated on all 90 languages. A total
of 22 systems (19 neural) from 10 teams were submitted to the task. All four
winning systems were neural (two monolingual transformers and two massively
multilingual RNN-based models with gated attention). Most teams demonstrate
utility of data hallucination and augmentation, ensembles, and multilingual
training for low-resource languages. Non-neural learners and manually designed
grammars showed competitive and even superior performance on some languages
(such as Ingrian, Tajik, Tagalog, Zarma, Lingala), especially with very limited
data. Some language families (Afro-Asiatic, Niger-Congo, Turkic) were
relatively easy for most systems and achieved over 90% mean accuracy while
others were more challenging.
- Abstract(参考訳): 自然言語処理(nlp)の幅広い目標は、任意の自然言語を処理する能力を持つシステムを開発することである。
しかし、ほとんどのシステムは英語のような1つの言語からのデータを使って開発されている。
sigmorphon 2020では、形態学的再帰に関する共通タスクが、タイプ論的に異なる言語を一般化するシステムの能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
タスクには10チームから合計22のシステム(19のニューラル)が提出された。
4つの勝利システムはすべてニューラルネットワーク(単言語トランスフォーマー2台と多言語rnnベースのモデル2台)であった。
ほとんどのチームは、低リソース言語のためのデータ幻覚と拡張、アンサンブル、多言語トレーニングの有用性を示しています。
非神経学習者や手動で設計した文法は、Ingrian, Tajik, Tagalog, Zarma, Lingalaなど一部の言語で特に限られたデータで、競争力があり、優れた性能を示した。
一部の言語ファミリー(afro-asiatic、niger-congo、turkic)は、ほとんどのシステムで比較的簡単であり、90%以上の精度を達成したが、他の言語はより困難であった。
関連論文リスト
- On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons [37.32174349956148]
多言語デコーダを用いた言語モデル(PLM)のニューロンレベルの内部挙動の解析
言語固有のニューロンは、言語間でわずかに重なり(5%)、ユニークであることを示す。
推論中に各モデルにおける全ニューロンの1%未満をタンパし、少数の言語特異的ニューロンとのタンパリングがテキスト生成におけるターゲット言語発生の確率を劇的に変化させることを実証した。
論文 参考訳(メタデータ) (2024-04-03T03:37:22Z) - When Is Multilinguality a Curse? Language Modeling for 250 High- and
Low-Resource Languages [25.52470575274251]
私たちは250以上の言語で1万以上のモノリンガルおよび多言語言語モデルを事前訓練しています。
モデレーションでは、多言語データを追加することで、低リソース言語モデリングのパフォーマンスが向上する。
データセットのサイズが大きくなるにつれて、マルチリンガルデータの追加は、低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
論文 参考訳(メタデータ) (2023-11-15T18:47:42Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - MuRIL: Multilingual Representations for Indian Languages [3.529875637780551]
インドは、1369の合理化された言語と方言が全国で話されている多言語社会です。
それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で最適に動作します。
IN言語に特化した多言語言語モデルであるMuRILを提案します。
論文 参考訳(メタデータ) (2021-03-19T11:06:37Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。