Fugu-MT 論文翻訳(概要): SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological Inflection

論文の概要: SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological Inflection

arxiv url: http://arxiv.org/abs/2006.11572v2
Date: Tue, 14 Jul 2020 11:17:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 22:47:08.743347
Title: SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological Inflection
Title（参考訳）: sigmorphon 2020 タスク0: タイプ論的に多様な形態変化
Authors: Ekaterina Vylomova, Jennifer White, Elizabeth Salesky, Sabrina J. Mielke, Shijie Wu, Edoardo Ponti, Rowan Hall Maudslay, Ran Zmigrod, Josef Valvoda, Svetlana Toldova, Francis Tyers, Elena Klyachko, Ilya Yegorov, Natalia Krizhanovsky, Paula Czarnowska, Irene Nikkarinen, Andrew Krizhanovsky, Tiago Pimentel, Lucas Torroba Hennigen, Christo Kirov, Garrett Nicolai, Adina Williams, Antonios Anastasopoulos, Hilaria Cruz, Eleanor Chodroff, Ryan Cotterell, Miikka Silfverberg, Mans Hulden
Abstract要約: 形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
参考スコア（独自算出の注目度）: 81.85463892070085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A broad goal in natural language processing (NLP) is to develop a system that has the capacity to process any natural language. Most systems, however, are developed using data from just one language such as English. The SIGMORPHON 2020 shared task on morphological reinflection aims to investigate systems' ability to generalize across typologically distinct languages, many of which are low resource. Systems were developed using data from 45 languages and just 5 language families, fine-tuned with data from an additional 45 languages and 10 language families (13 in total), and evaluated on all 90 languages. A total of 22 systems (19 neural) from 10 teams were submitted to the task. All four winning systems were neural (two monolingual transformers and two massively multilingual RNN-based models with gated attention). Most teams demonstrate utility of data hallucination and augmentation, ensembles, and multilingual training for low-resource languages. Non-neural learners and manually designed grammars showed competitive and even superior performance on some languages (such as Ingrian, Tajik, Tagalog, Zarma, Lingala), especially with very limited data. Some language families (Afro-Asiatic, Niger-Congo, Turkic) were relatively easy for most systems and achieved over 90% mean accuracy while others were more challenging.
Abstract（参考訳）: 自然言語処理(nlp)の幅広い目標は、任意の自然言語を処理する能力を持つシステムを開発することである。しかし、ほとんどのシステムは英語のような1つの言語からのデータを使って開発されている。 sigmorphon 2020では、形態学的再帰に関する共通タスクが、タイプ論的に異なる言語を一般化するシステムの能力を調査することを目的としている。システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。タスクには10チームから合計22のシステム(19のニューラル)が提出された。 4つの勝利システムはすべてニューラルネットワーク(単言語トランスフォーマー2台と多言語rnnベースのモデル2台)であった。ほとんどのチームは、低リソース言語のためのデータ幻覚と拡張、アンサンブル、多言語トレーニングの有用性を示しています。非神経学習者や手動で設計した文法は、Ingrian, Tajik, Tagalog, Zarma, Lingalaなど一部の言語で特に限られたデータで、競争力があり、優れた性能を示した。一部の言語ファミリー(afro-asiatic、niger-congo、turkic)は、ほとんどのシステムで比較的簡単であり、90%以上の精度を達成したが、他の言語はより困難であった。

関連論文リスト

Improving Low-Resource Retrieval Effectiveness using Zero-Shot Linguistic Similarity Transfer [23.572881425446074]
グローバリゼーションと植民地化により、世界中の大多数が英語やフランス語などのごく一部の言語を使用するようになった。このことは、オクシタンやシチリア語など、現在絶滅危惧されている多くの言語が生き残る可能性に大きな影響を与えている。現状の検索システムは言語の種類によっては堅牢ではなく,検索効率に大きな影響を与えている。そこで本研究では,2種類の言語品種に対する微調整型ニューラルローダを提案し,それらの言語的類似点にそれらを公開する。
論文参考訳（メタデータ） (2025-03-28T15:10:19Z)
On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons [37.32174349956148]
多言語デコーダを用いた言語モデル(PLM)のニューロンレベルの内部挙動の解析言語固有のニューロンは、言語間でわずかに重なり(5%)、ユニークであることを示す。推論中に各モデルにおける全ニューロンの1%未満をタンパし、少数の言語特異的ニューロンとのタンパリングがテキスト生成におけるターゲット言語発生の確率を劇的に変化させることを実証した。
論文参考訳（メタデータ） (2024-04-03T03:37:22Z)
When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages [25.52470575274251]
私たちは250以上の言語で1万以上のモノリンガルおよび多言語言語モデルを事前訓練しています。モデレーションでは、多言語データを追加することで、低リソース言語モデリングのパフォーマンスが向上する。データセットのサイズが大きくなるにつれて、マルチリンガルデータの追加は、低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
論文参考訳（メタデータ） (2023-11-15T18:47:42Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
GlobalBench: A Benchmark for Global Progress in Natural Language Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文参考訳（メタデータ） (2023-05-24T04:36:32Z)
Same Neurons, Different Languages: Probing Morphosyntax in Multilingual Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。 43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文参考訳（メタデータ） (2022-05-04T12:22:31Z)
Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。類型的に多様な訓練言語のサンプルからこの分布を推測する。我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文参考訳（メタデータ） (2021-08-06T23:49:18Z)
MuRIL: Multilingual Representations for Indian Languages [3.529875637780551]
インドは、1369の合理化された言語と方言が全国で話されている多言語社会です。それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で最適に動作します。 IN言語に特化した多言語言語モデルであるMuRILを提案します。
論文参考訳（メタデータ） (2021-03-19T11:06:37Z)
Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文参考訳（メタデータ） (2017-08-30T08:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。