論文の概要: New Textual Corpora for Serbian Language Modeling
- arxiv url: http://arxiv.org/abs/2405.09250v1
- Date: Wed, 15 May 2024 11:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 13:46:20.081634
- Title: New Textual Corpora for Serbian Language Modeling
- Title(参考訳): セルビア語モデリングのための新しいテキストコーパス
- Authors: Mihailo Škorić, Nikola Janković,
- Abstract要約: 古いコーパスと新しいコーパスの両方のユニークさは、周波数ベースの幾何的手法によってアクセスされる。
本稿では,セルビア全大学における博士論文リポジトリに保管されている博士論文に基づく新しい高品質コーパス,および同ソースからの同時翻訳コーパスの3つの新しいコーパスを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper will present textual corpora for Serbian (and Serbo-Croatian), usable for the training of large language models and publicly available at one of the several notable online repositories. Each corpus will be classified using multiple methods and its characteristics will be detailed. Additionally, the paper will introduce three new corpora: a new umbrella web corpus of Serbo-Croatian, a new high-quality corpus based on the doctoral dissertations stored within National Repository of Doctoral Dissertations from all Universities in Serbia, and a parallel corpus of abstract translation from the same source. The uniqueness of both old and new corpora will be accessed via frequency-based stylometric methods, and the results will be briefly discussed.
- Abstract(参考訳): 本稿では,セルビア語(およびセルビア語・クロアチア語)のテキストコーパスについて紹介する。
各コーパスは、複数のメソッドを使用して分類され、その特性が詳述される。
さらに,セルビア全大学の博士論文リポジトリに保管されている博士論文に基づく新しい高品質コーパス,および同ソースからの抽象翻訳の並列コーパスの3つの新しいコーパスを紹介する。
古いコーパスと新しいコーパスの両方の独特さは、周波数ベースの幾何的手法によってアクセスされ、その結果を概説する。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - CLASSLA-web: Comparable Web Corpora of South Slavic Languages Enriched with Linguistic and Genre Annotation [4.450536872346658]
本稿では,スロベニア人,クロアチア人,ボスニア人,モンテネグロ人,セルビア人,マケドニア人,ブルガリア人のウェブコーパスを比較検討する。
これらのコーパスの収集には、合計で2600万件の文書から13億件のトークンが含まれている。
全てのコーパスは、最先端のCLASSLA-Stanza言語処理パイプラインに言語的に注釈付けされていた。
論文 参考訳(メタデータ) (2024-03-19T13:30:47Z) - Novi jezi\v{c}ki modeli za srpski jezik [0.0]
本稿では,セルビア語におけるトランスフォーマーに基づく言語モデルの開発史について概説する。
セルビアで選択されたベクトル化モデルのうち2つの新しいモデルを含む10つは、4つの自然言語処理タスクで比較される。
論文 参考訳(メタデータ) (2024-02-22T08:48:21Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Carolina: a General Corpus of Contemporary Brazilian Portuguese with
Provenance, Typology and Versioning Information [0.629199190108771]
カロライナは、ウェブ・アズ・コーパス・方法論を用いて建設中のブラジルのポルトガル語テキストの大規模なオープンコーパスである。
カロライナで最初の公開バージョンは653,322,577ドルのトークンで、7ドル以上の広さに分散している。
論文 参考訳(メタデータ) (2023-03-28T16:09:40Z) - Creating a morphological and syntactic tagged corpus for the Uzbek
language [0.0]
ウズベク語の構文的および形態学的タグ付けコーパスを作成するための新しい音声部分(POS)と構文的タグセットを開発する。
開発したアノテーションツールとソフトウェアに基づいて,タグ付きコーパス生成の第1段階の経験結果を共有する。
論文 参考訳(メタデータ) (2022-10-27T07:44:12Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Know thy corpus! Robust methods for digital curation of Web corpora [0.0]
本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
論文 参考訳(メタデータ) (2020-03-13T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。