論文の概要: LowResourceEval-2019: a shared task on morphological analysis for
low-resource languages
- arxiv url: http://arxiv.org/abs/2001.11285v1
- Date: Thu, 30 Jan 2020 12:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:11:50.377578
- Title: LowResourceEval-2019: a shared task on morphological analysis for
low-resource languages
- Title(参考訳): LowResourceEval-2019:低リソース言語のための形態解析の共有タスク
- Authors: Elena Klyachko and Alexey Sorokin and Natalia Krizhanovskaya and
Andrew Krizhanovsky and Galina Ryazanskaya
- Abstract要約: 本稿は、ロシアの言語、すなわち、イブキ語、カレリア語、セルクプ語、ヴェプス語に対する形態学的分析に関する最初の共有課題の結果について述べる。
タスクには、形態分析、単語フォーム生成、形態素セグメンテーションが含まれる。
この記事では、共有タスク用に準備されたデータセットを説明し、参加者のソリューションの分析を含む。
- 参考スコア(独自算出の注目度): 0.30998852056211795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper describes the results of the first shared task on morphological
analysis for the languages of Russia, namely, Evenki, Karelian, Selkup, and
Veps. For the languages in question, only small-sized corpora are available.
The tasks include morphological analysis, word form generation and morpheme
segmentation. Four teams participated in the shared task. Most of them use
machine-learning approaches, outperforming the existing rule-based ones. The
article describes the datasets prepared for the shared tasks and contains
analysis of the participants' solutions. Language corpora having different
formats were transformed into CONLL-U format. The universal format makes the
datasets comparable to other language corpura and facilitates using them in
other NLP tasks.
- Abstract(参考訳): 本稿は,ロシアにおける言語形態素解析に関する最初の共通タスク,すなわち evenki, karelian, selkup, veps の結果について述べる。
問題の言語については、小さなコーパスのみが利用可能である。
タスクには、形態分析、単語フォーム生成、形態素セグメンテーションが含まれる。
4チームが共同作業に参加した。
その多くは、既存のルールベースのアプローチよりも優れた機械学習アプローチを使用している。
この記事は、共有タスク用に準備されたデータセットを記述し、参加者のソリューションの分析を含んでいる。
異なるフォーマットの言語コーパスがCONLL-Uフォーマットに変換された。
ユニバーサルフォーマットは、データセットを他の言語コープラと比較し、他のnlpタスクでの使用を容易にする。
関連論文リスト
- To token or not to token: A Comparative Study of Text Representations
for Cross-Lingual Transfer [23.777874316083984]
ゼロショットと少数ショットの両方の評価を重み付けして表現できるスコアリング言語クオシアン計量を提案する。
解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。
単語関係が重要な役割を果たす依存性解析タスクでは、キャラクタレベルに焦点を当てたモデルが他よりも優れています。
論文 参考訳(メタデータ) (2023-10-12T06:59:10Z) - Assessing Linguistic Generalisation in Language Models: A Dataset for
Brazilian Portuguese [4.941630596191806]
ブラジルポルトガル語で開発されたモデルで符号化された言語情報を検査する本質的な評価課題を提案する。
これらのタスクは、異なる言語モデルが文法構造やマルチワード表現に関連する情報を一般化する方法を評価するために設計されている。
論文 参考訳(メタデータ) (2023-05-23T13:49:14Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Visual Comparison of Language Model Adaptation [55.92129223662381]
アダプタは、モデル適応のための軽量な代替品です。
本稿では,インタラクティブな視覚的説明手法について,いくつかの設計と代替案について論じる。
例えば、文脈0の埋め込みに従って言語脱バイアスタスクを訓練したアダプタが、新しいタイプのバイアスをもたらすことを示す。
論文 参考訳(メタデータ) (2022-08-17T09:25:28Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Multilingual Text Classification for Dravidian Languages [4.264592074410622]
そこで我々はDravidian言語のための多言語テキスト分類フレームワークを提案する。
一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。
一方,モデルが言語間の相関を十分に認識・活用できないという問題を考慮し,さらに言語固有の表現モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-03T04:26:49Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Provenance for Linguistic Corpora Through Nanopublications [0.22940141855172028]
計算言語学の研究は、新しいツールや方法論を訓練し、テストするためのテキストコーパスに依存している。
注釈付き言語情報が多く存在するが、これらのコーパスは重要な手作業なしでは相互運用できないことが多い。
本稿では、イベントアノテートコーパスのケーススタディと、ナノパブリケーションの形で、より相互運用可能な新しいデータ表現を作成することで、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-11T11:30:30Z) - Quda: Natural Language Queries for Visual Data Analytics [33.983060903399554]
我々は、V-NLIが自由形式の自然言語から解析タスクを認識するのを支援するために、Qudaと呼ばれる新しいデータセットを提案する。
私たちのデータセットには14,035ドルの多様なユーザクエリが含まれており、それぞれに1つまたは複数の分析タスクがアノテートされている。
この研究は、解析的タスクを認識するための大規模コーパスを構築する最初の試みである。
論文 参考訳(メタデータ) (2020-05-07T05:35:16Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。