論文の概要: MULTEXT-East
- arxiv url: http://arxiv.org/abs/2003.14026v1
- Date: Tue, 31 Mar 2020 08:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:58:22.475186
- Title: MULTEXT-East
- Title(参考訳): MULTEXT-East
- Authors: Toma\v{z} Erjavec
- Abstract要約: このデータセットは広く文書化されており、研究目的で自由に利用できる。
ブルガリア語、クロアチア語、チェコ語、英語、エストニア語、ハンガリー語、マケドニア語、ペルシア語、ポーランド語、レシアン語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、ウクライナ語を含む。
ジョージ・オーウェル(George Orwell)の小説「1984」のパラレルコーパスには、手書きのモルフォシンタクティックな記述とレムマが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MULTEXT-East language resources, a multilingual dataset for language
engineering research, focused on the morphosyntactic level of linguistic
description. The MULTEXT-East dataset includes the EAGLES-based morphosyntactic
specifications, morphosyntactic lexicons, and an annotated multilingual
corpora. The parallel corpus, the novel "1984" by George Orwell, is sentence
aligned and contains hand-validated morphosyntactic descriptions and lemmas.
The resources are uniformly encoded in XML, using the Text Encoding Initiative
Guidelines, TEI P5, and cover 16 languages: Bulgarian, Croatian, Czech,
English, Estonian, Hungarian, Macedonian, Persian, Polish, Resian, Romanian,
Russian, Serbian, Slovak, Slovene, and Ukrainian. This dataset is extensively
documented, and freely available for research purposes. This case study gives a
history of the development of the MULTEXT-East resources, presents their
encoding and components, discusses related work and gives some conclusions.
- Abstract(参考訳): MULTEXT-East言語リソースは言語工学研究のための多言語データセットであり、言語記述のモルフォシンタクティックなレベルに焦点を当てている。
MULTEXT-Eastデータセットは、EAGLESベースのモルフォシンタクティック仕様、モルフォシンタクティックレキシコン、注釈付き多言語コーパスを含む。
ジョージ・オーウェル(George Orwell)の小説「1984」のパラレルコーパスには、手書きのモルフォシンタクティックな記述とレムマが含まれている。
リソースはXMLで一様にエンコードされており、Text Encoding Initiative Guidelines, TEI P5を使用し、ブルガリア語、クロアチア語、チェコ語、英語、エストニア語、ハンガリー語、マケドニア語、ペルシア語、ポーランド語、レシアン語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、ウクライナ語など16言語をカバーする。
このデータセットは広く文書化されており、研究目的で自由に利用できる。
このケーススタディはMULTEXT-Eastリソースの開発の歴史を示し、エンコーディングとコンポーネントを示し、関連する作業について議論し、いくつかの結論を与える。
関連論文リスト
- MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Cross-lingual Editing in Multilingual Language Models [1.3062731746155414]
本稿では,言語間モデル編集(textbfXME)パラダイムを紹介し,事実を一つの言語で編集し,その後の更新伝搬を他の言語で観察する。
その結果,言語が2つの異なるスクリプトファミリーに属している場合を中心に,XME設定下での最先端のMETの性能制限が顕著に示された。
論文 参考訳(メタデータ) (2024-01-19T06:54:39Z) - $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form
Summarization in the Legal Domain [2.4815579733050157]
欧州連合法プラットフォーム(EUR-Lex)の法的行為を手作業でキュレートした文書要約に基づいて,EUR-Lex-Sumと呼ばれる新しいデータセットを提案する。
文書とその要約は、24の公用語のうちいくつかの言語間の段落整列データとして存在している。
言語毎に最大1,500の文書/要約ペアを取得し、24言語すべてで利用可能なテキストを含む375の言語横断的な法的行為のサブセットを含む。
論文 参考訳(メタデータ) (2022-10-24T17:58:59Z) - XF2T: Cross-lingual Fact-to-Text Generation for Low-Resource Languages [11.581072296148031]
拡張多言語データセット上で、人気のあるTransformerベースのテキスト生成モデルを用いて広範な研究を行う。
構造認識型入力エンコーディングとファクト認識を用いたマルチ言語 mT5 モデルにより,12言語の平均結果が得られた。
論文 参考訳(メタデータ) (2022-09-22T18:01:27Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。