論文の概要: Uralic Language Identification (ULI) 2020 shared task dataset and the
Wanca 2017 corpus
- arxiv url: http://arxiv.org/abs/2008.12169v1
- Date: Thu, 27 Aug 2020 14:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:42:53.295991
- Title: Uralic Language Identification (ULI) 2020 shared task dataset and the
Wanca 2017 corpus
- Title(参考訳): Uralic Language Identification (ULI) 2020 タスクデータセットと Wanca 2017 コーパスの共有
- Authors: Tommi Jauhiainen, Heidi Jauhiainen, Niko Partanen and Krister Lind\'en
- Abstract要約: We describe the ULI dataset and how it built using the Wanca 2017 corpus and texts in different languages from the Leipzig corpora collection。
また,ULI 2020データセットを用いてベースライン言語識別実験を行った。
- 参考スコア(独自算出の注目度): 1.4433172583879073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article introduces the Wanca 2017 corpus of texts crawled from the
internet from which the sentences in rare Uralic languages for the use of the
Uralic Language Identification (ULI) 2020 shared task were collected. We
describe the ULI dataset and how it was constructed using the Wanca 2017 corpus
and texts in different languages from the Leipzig corpora collection. We also
provide baseline language identification experiments conducted using the ULI
2020 dataset.
- Abstract(参考訳): 本稿では、ウラル言語識別(uli)2020の共有タスクを利用するために、珍しいウラル言語で書かれた文が収集されたインターネットからクロールされたwanca 2017テキストのコーパスを紹介する。
uliデータセットと、それをwanca 2017コーパスとleipzig corporaコレクションから異なる言語のテキストを用いて構築した方法について説明する。
また,ULI 2020データセットを用いてベースライン言語識別実験を行った。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - Jambu: A historical linguistic database for South Asian languages [1.5293427903448025]
南アジアの言語を共用したデータベースJambuを紹介します。
データベースには602 lectsから287kのレマタが含まれ、23kのコニャートのセットにまとめられている。
論文 参考訳(メタデータ) (2023-06-05T00:32:57Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文 参考訳(メタデータ) (2020-07-02T14:57:28Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。