論文の概要: UniMorph 4.0: Universal Morphology
- arxiv url: http://arxiv.org/abs/2205.03608v2
- Date: Tue, 10 May 2022 05:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:54:16.337700
- Title: UniMorph 4.0: Universal Morphology
- Title(参考訳): unimorph 4.0:ユニバーサルモルフォロジー
- Authors: Khuyagbaatar Batsuren, Omer Goldman, Salam Khalifa, Nizar Habash,
Witold Kiera\'s, G\'abor Bella, Brian Leonard, Garrett Nicolai, Kyle Gorman,
Yustinus Ghanggo Ate, Maria Ryskina, Sabrina J. Mielke, Elena Budianskaya,
Charbel El-Khaissi, Tiago Pimentel, Michael Gasser, William Lane, Mohit Raj,
Matt Coler, Jaime Rafael Montoya Samame, Delio Siticonatzi Camaiteri, Esa\'u
Zumaeta Rojas, Didier L\'opez Francis, Arturo Oncevay, Juan L\'opez Bautista,
Gema Celeste Silva Villegas, Lucas Torroba Hennigen, Adam Ek, David Guriel,
Peter Dirix, Jean-Philippe Bernardy, Andrey Scherbakov, Aziyana Bayyr-ool,
Antonios Anastasopoulos, Roberto Zariquiey, Karina Sheifer, Sofya Ganieva,
Hilaria Cruz, Ritv\'an Karah\'o\v{g}a, Stella Markantonatou, George Pavlidis,
Matvey Plugaryov, Elena Klyachko, Ali Salehi, Candy Angulo, Jatayu Baxi,
Andrew Krizhanovsky, Natalia Krizhanovskaya, Elizabeth Salesky, Clara Vania,
Sardana Ivanova, Jennifer White, Rowan Hall Maudslay, Josef Valvoda, Ran
Zmigrod, Paula Czarnowska, Irene Nikkarinen, Aelita Salchak, Brijesh Bhatt,
Christopher Straughn, Zoey Liu, Jonathan North Washington, Yuval Pinter,
Duygu Ataman, Marcin Wolinski, Totok Suhardijanto, Anna Yablonskaya, Niklas
Stoehr, Hossep Dolatian, Zahroh Nuriah, Shyam Ratan, Francis M. Tyers,
Edoardo M. Ponti, Grant Aiton, Aryaman Arora, Richard J. Hatcher, Ritesh
Kumar, Jeremiah Young, Daria Rodionova, Anastasia Yemelina, Taras Andrushko,
Igor Marchenko, Polina Mashkovtseva, Alexandra Serova, Emily Prud'hommeaux,
Maria Nepomniashchaya, Fausto Giunchiglia, Eleanor Chodroff, Mans Hulden,
Miikka Silfverberg, Arya D. McCarthy, David Yarowsky, Ryan Cotterell, Reut
Tsarfaty, Ekaterina Vylomova
- Abstract要約: 本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
- 参考スコア(独自算出の注目度): 104.69846084893298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Universal Morphology (UniMorph) project is a collaborative effort
providing broad-coverage instantiated normalized morphological inflection
tables for hundreds of diverse world languages. The project comprises two major
thrusts: a language-independent feature schema for rich morphological
annotation and a type-level resource of annotated data in diverse languages
realizing that schema. This paper presents the expansions and improvements made
on several fronts over the last couple of years (since McCarthy et al. (2020)).
Collaborative efforts by numerous linguists have added 67 new languages,
including 30 endangered languages. We have implemented several improvements to
the extraction pipeline to tackle some issues, e.g. missing gender and macron
information. We have also amended the schema to use a hierarchical structure
that is needed for morphological phenomena like multiple-argument agreement and
case stacking, while adding some missing morphological features to make the
schema more inclusive. In light of the last UniMorph release, we also augmented
the database with morpheme segmentation for 16 languages. Lastly, this new
release makes a push towards inclusion of derivational morphology in UniMorph
by enriching the data and annotation schema with instances representing
derivational processes from MorphyNet.
- Abstract(参考訳): ユニモルフィック・モルフォロジー(unimorph)プロジェクトは、数百の多種多様な世界言語に広範に一般化された正規化形態素変換テーブルを提供する協力的な取り組みである。
リッチな形態素アノテーションのための言語に依存しない機能スキーマと、そのスキーマを実現する多様な言語におけるアノテーション付きデータのタイプレベルのリソースである。
本稿では,過去2年間のいくつかの分野(mccarthy et al. (2020)以降)における拡張と改善について述べる。
多くの言語学者による協力活動により、30の絶滅危惧言語を含む67の新しい言語が追加された。
性別やマクロンなどの問題に対処するために,抽出パイプラインにいくつかの改良を加えてきた。
また、スキーマをより包括的にするために、いくつかの欠落した形態的特徴を加えながら、多重議論やケース積み重ねのような形態的現象に必要となる階層構造を使用するようにスキーマを修正した。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
最後に、この新リリースは、データとアノテーションスキーマをMorphyNetから派生プロセスを表すインスタンスで強化することにより、UniMorphに派生形態を取り入れることを推進する。
関連論文リスト
- A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文 参考訳(メタデータ) (2024-04-06T07:10:47Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Morphosyntactic probing of multilingual BERT models [41.83131308999425]
言語モデルにおける形態情報の多言語探索のための広範囲なデータセットを提案する。
トレーニング済みのTransformerモデル (mBERT と XLM-RoBERTa) では,これらのタスク間で高い性能を実現することができる。
論文 参考訳(メタデータ) (2023-06-09T19:15:20Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphological Reinflection with Multiple Arguments: An Extended
Annotation schema and a Georgian Case Study [7.245355976804435]
我々はUniMorphの形態的データセットを拡張し、真の接尾辞を用いて複数の引数に一致する動詞をカバーする。
データセットは、既存のUniMorphデータセットの4倍のテーブルと6倍の動詞形式を持つ。
このベンチマークのカバレッジ、一貫性、解釈性を改善することが期待されている。
論文 参考訳(メタデータ) (2022-03-16T10:47:29Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - Morphology Matters: A Multilingual Language Modeling Analysis [8.791030561752384]
先行研究では、言語のモデル化が難しくなるかどうかについては意見が一致していない。
我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。
いくつかの形態学的測定は、LSTMモデルがBPEセグメントデータで訓練されると、より高い推定値と有意に関連します。
論文 参考訳(メタデータ) (2020-12-11T11:55:55Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Universal Dependencies v2: An Evergrowing Multilingual Treebank
Collection [33.86322085911299]
Universal Dependenciesは、多くの言語に対して言語横断的に一貫性のあるツリーバンクアノテーションを作成するためのオープンコミュニティの取り組みである。
ガイドライン(UD v2)のバージョン2を説明し、UD v1からUD v2への大きな変更について論じ、現在90言語で利用可能なツリーバンクについて概説する。
論文 参考訳(メタデータ) (2020-04-22T15:38:18Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。