論文の概要: The SIGMORPHON 2022 Shared Task on Morpheme Segmentation
- arxiv url: http://arxiv.org/abs/2206.07615v1
- Date: Wed, 15 Jun 2022 15:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 14:20:01.703216
- Title: The SIGMORPHON 2022 Shared Task on Morpheme Segmentation
- Title(参考訳): シGMORPHON 2022 モルフェムセグメンテーションの共有タスク
- Authors: Khuyagbaatar Batsuren, G\'abor Bella, Aryaman Arora, Viktor
Martinovi\'c, Kyle Gorman, Zden\v{e}k \v{Z}abokrtsk\'y, Amarsanaa Ganbold,
\v{S}\'arka Dohnalov\'a, Magda \v{S}ev\v{c}\'ikov\'a, Kate\v{r}ina
Pelegrinov\'a, Fausto Giunchiglia, Ryan Cotterell, Ekaterina Vylomova
- Abstract要約: SIGMORPHON 2022は、形態素分割システムのタスクを共有し、単語を一連の形態素に分解する。
最も優れたシステムは、最先端の3つのサブワードトークン法(BPE、ULM、Morfessor2)を30.71%の絶対値で上回った。
エラー解析を容易にし,今後の研究をサポートするため,システム予測,評価スクリプト,ゴールド標準データセットをすべてリリースした。
- 参考スコア(独自算出の注目度): 39.44280269663147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The SIGMORPHON 2022 shared task on morpheme segmentation challenged systems
to decompose a word into a sequence of morphemes and covered most types of
morphology: compounds, derivations, and inflections. Subtask 1, word-level
morpheme segmentation, covered 5 million words in 9 languages (Czech, English,
Spanish, Hungarian, French, Italian, Russian, Latin, Mongolian) and received 13
system submissions from 7 teams and the best system averaged 97.29% F1 score
across all languages, ranging English (93.84%) to Latin (99.38%). Subtask 2,
sentence-level morpheme segmentation, covered 18,735 sentences in 3 languages
(Czech, English, Mongolian), received 10 system submissions from 3 teams, and
the best systems outperformed all three state-of-the-art subword tokenization
methods (BPE, ULM, Morfessor2) by 30.71% absolute. To facilitate error analysis
and support any type of future studies, we released all system predictions, the
evaluation script, and all gold standard datasets.
- Abstract(参考訳): sigmorphon 2022は、形態素のセグメンテーションに関する共通のタスクを共有し、ある単語を形態素の列に分解し、ほとんどの形態素(化合物、導出、反射)をカバーした。
サブタスク1では、9つの言語(チェコ語、英語、スペイン語、ハンガリー語、フランス語、イタリア語、ロシア語、ラテン語、モンゴル語)で500万語をカバーし、7つのチームから13のシステム申請を受け、最も優れたシステムは英語(93.84%)からラテン語(99.38%)まで、全言語で97.29%のスコアを獲得した。
subtask 2, sentence-level morpheme segmentation, cover 18,735 sentences in 3 languages (czech, english, mongolian) は3つのチームから10のシステム投稿を受け取り、最も優れたシステムは3つの最先端のサブワードトークン化メソッド (bpe, ulm, morfessor2) を30.71%絶対的に上回った。
エラー解析を容易にし,今後の研究をサポートするため,システム予測,評価スクリプト,ゴールド標準データセットをすべてリリースした。
関連論文リスト
- SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification [41.94295877935867]
本稿では,SmurfCatチームのPAN-2024コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
テキストデトキシフィケーションタスクにおいて,mT0 や Aya などの多言語列列列列モデルを微調整した。
論文 参考訳(メタデータ) (2024-07-07T17:19:34Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - 1Cademy at Semeval-2022 Task 1: Investigating the Effectiveness of
Multilingual, Multitask, and Language-Agnostic Tricks for the Reverse
Dictionary Task [13.480318097164389]
本稿では,SemEval2022タスクの逆辞書トラックに着目し,単語の埋め込みと辞書のグルースをマッチングする。
モデルは文の入力をSGNS、Char、Electraの3種類の埋め込みに変換する。
提案するElmoベースの単言語モデルが最も高い結果を得る。
論文 参考訳(メタデータ) (2022-06-08T06:39:04Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - The SIGMORPHON 2020 Shared Task on Unsupervised Morphological Paradigm
Completion [28.728844366333185]
本稿では, SIGMORPHON 2020共有課題における非教師なし形態素パラダイムの完成に関する知見について述べる。
参加者は、原文とレムマのリストを入力とし、すべての入力フォームを出力するシステムを提出するよう求められた。
ここでは、この共有タスクがトピックに関するさらなる研究の基礎となるよう分析を行う。
論文 参考訳(メタデータ) (2020-05-28T03:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。