論文の概要: HmBlogs: A big general Persian corpus
- arxiv url: http://arxiv.org/abs/2111.02362v1
- Date: Wed, 3 Nov 2021 17:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 13:11:06.600582
- Title: HmBlogs: A big general Persian corpus
- Title(参考訳): HmBlogs: ペルシャの大企業
- Authors: Hamzeh Motahari Khansari, Mehrnoush Shamsfard
- Abstract要約: 本稿では,低資源言語としてのペルシャ語 hmBlogs corpus を紹介する。
このコーパスは、ペルシャのブログから約15年間に2000万近いブログ記事を収集して準備されている。
このコーパスは現在、ペルシア語のために独立して準備された最大のペルシア語コーパスであると言える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the hmBlogs corpus for Persian, as a low resource
language. This corpus has been prepared based on a collection of nearly 20
million blog posts over a period of about 15 years from a space of Persian
blogs and includes more than 6.8 billion tokens. It can be claimed that this
corpus is currently the largest Persian corpus that has been prepared
independently for the Persian language. This corpus is presented in both raw
and preprocessed forms, and based on the preprocessed corpus some word
embedding models are produced. By the provided models, the hmBlogs is compared
with some of the most important corpora available in Persian, and the results
show the superiority of the hmBlogs corpus over the others. These evaluations
also present the importance and effects of corpora, evaluation datasets, model
production methods, different hyperparameters and even the evaluation methods.
In addition to evaluating the corpus and its produced language models, this
research also presents a semantic analogy dataset.
- Abstract(参考訳): 本稿では,低資源言語としてのペルシャ語 hmBlogs corpus を紹介する。
このコーパスは、ペルシャのブログの領域から約15年間にわたって2000万近いブログ記事の収集に基づいて作成され、680億以上のトークンが含まれている。
このコーパスは現在、ペルシア語のために独立して準備された最大のペルシア語コーパスであると言える。
このコーパスは、生と前処理の両方の形式で提示され、前処理コーパスに基づいて単語埋め込みモデルを生成する。
得られたモデルにより、hmBlogsはペルシアで利用可能な最も重要なコーパスのいくつかと比較され、結果は他のコーパスよりもhmBlogsコーパスの方が優れていることを示している。
これらの評価は、コーパス、評価データセット、モデル生成方法、異なるハイパーパラメータ、さらには評価方法の重要性と効果を示す。
本研究は,コーパスとその生成言語モデルの評価に加えて,意味的類似データセットも提示する。
関連論文リスト
- DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models [78.51470038301436]
本稿では,データ評価,タグ付け,編集を通じて事前学習コーパスを洗練させるデータエンジニアリング手法であるDecorateLMを紹介する。
次に、DecorateLMを適用して、トレーニングコーパスの100億のトークンを強化し、さらに12億のパラメータLLMのさらなるトレーニングのために、高品質と多様性を実証する45億のトークンを選択します。
その結果、このような高品質なデータを利用することで、モデルの性能を大幅に向上させることができることが示され、事前学習コーパスの品質を高めるための強力なアプローチが示される。
論文 参考訳(メタデータ) (2024-10-08T02:42:56Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - The birth of Romanian BERT [1.377045689881944]
本稿では,ルーマニア語トランスフォーマーをベースとした最初の言語モデルであるルーマニア語BERTについて紹介する。
本稿では,コーパスの構成とクリーニング,モデルトレーニングプロセス,およびルーマニアの様々なデータセット上でのモデルの広範囲な評価について論じる。
論文 参考訳(メタデータ) (2020-09-18T09:30:48Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z) - CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language
Model [15.469228003507919]
CLUE(CLUECorpus 2020)の中国コーパスについて紹介する。
100Gの生コーパスが35億文字で、Common Crawlから回収される。
われわれは8Kの中国語彙を新たにリリースし、これはGoogleがリリースした中国ベルト語で使われている語彙の3分の1にすぎない。
論文 参考訳(メタデータ) (2020-03-03T06:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。