論文の概要: Sinhala Language Corpora and Stopwords from a Decade of Sri Lankan
Facebook
- arxiv url: http://arxiv.org/abs/2007.07884v1
- Date: Wed, 15 Jul 2020 17:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:21:57.757314
- Title: Sinhala Language Corpora and Stopwords from a Decade of Sri Lankan
Facebook
- Title(参考訳): Sinhala Language CorporaとSri Lankan Facebookの10年を振り返る
- Authors: Yudhanjaya Wijeratne, Nisansa de Silva
- Abstract要約: 本稿では,LIRNEasiaのデータ・分析・政策チームによる2つの言語コーパスについて述べる。
2010年から2020年までの2つのコーパスのうち、28,825,820から29,549,672語がスリランカの533ページで投稿されている。
より小さいコーパスは5,402,76語で、大文字から抽出されたシンハラ文字のみである。
- 参考スコア(独自算出の注目度): 0.554780083433538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents two colloquial Sinhala language corpora from the language
efforts of the Data, Analysis and Policy team of LIRNEasia, as well as a list
of algorithmically derived stopwords. The larger of the two corpora spans 2010
to 2020 and contains 28,825,820 to 29,549,672 words of multilingual text posted
by 533 Sri Lankan Facebook pages, including politics, media, celebrities, and
other categories; the smaller corpus amounts to 5,402,76 words of only Sinhala
text extracted from the larger. Both corpora have markers for their date of
creation, page of origin, and content type.
- Abstract(参考訳): 本稿では,LIRNEasiaのデータ・分析・政策チームの言語活動から得られた2つの言語コーパスと,アルゴリズムによって派生した停止語のリストを示す。
2つのコーパスのうち大きなものは2010年から2020年にかけて、政治、メディア、著名人、その他のカテゴリーを含む533のsri lankan facebookページが投稿した多言語テキストの28,825,820から29,549,672語を含む。
どちらのコーパスも、作成日、原産地ページ、コンテンツタイプを示すマーカーを持っている。
関連論文リスト
- Curating Stopwords in Marathi: A TF-IDF Approach for Improved Text Analysis and Information Retrieval [0.4499833362998489]
ストップワードは、文書の意味や重要性を決定するのにはほとんど価値がないと考えられる言語で一般的に使われる単語である。
我々の研究は、マハコルプス(MahaCorpus)を用いてマラティア語で2480万の文で停止語をキュレーションすることを目的としている。
論文 参考訳(メタデータ) (2024-06-16T17:59:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文 参考訳(メタデータ) (2023-06-27T11:06:44Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - Towards a parallel corpus of Portuguese and the Bantu language Emakhuwa
of Mozambique [4.060731229044571]
モザンビーク語で話されているエマクフワ語は、ほとんどのアフリカ語言語の低リソース言語である。
本稿では,Emakhuwa-Portugueseパラレルコーパスの作成について述べる。
データセットには47,415文のペアがあり、エマクワの699,976ワードトークンとポルトガル語の877,595ワードトークンが含まれている。
論文 参考訳(メタデータ) (2021-04-12T18:31:56Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Informational Space of Meaning for Scientific Texts [68.8204255655161]
本稿では,単語の意味を,テキストが属する対象カテゴリに関する相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。
Leicester Scientific Corpus (LSC) と Leicester Scientific Dictionary-Core (LScDC) に基づく意味空間の構築に本手法を適用した。
RIGに基づく提案モデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。
論文 参考訳(メタデータ) (2020-04-28T14:26:12Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。