論文の概要: Carolina: a General Corpus of Contemporary Brazilian Portuguese with
Provenance, Typology and Versioning Information
- arxiv url: http://arxiv.org/abs/2303.16098v1
- Date: Tue, 28 Mar 2023 16:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:32:06.747923
- Title: Carolina: a General Corpus of Contemporary Brazilian Portuguese with
Provenance, Typology and Versioning Information
- Title(参考訳): カロライナ:プロヴァンス、タイポロジー、バージョニング情報を持つ現代ブラジルポルトガル語の一般的なコーパス
- Authors: Maria Clara Ramos Morales Crespo, Maria Lina de Souza Jeannine Rocha,
Mariana Louren\c{c}o Sturzeneker, Felipe Ribas Serras, Guilherme Lamartine de
Mello, Aline Silva Costa, Mayara Feliciano Palma, Renata Morais Mesquita,
Raquel de Paula Guets, Mariana Marques da Silva, Marcelo Finger, Maria Clara
Paix\~ao de Sousa, Cristiane Namiuti, Vanessa Martins do Monte
- Abstract要約: カロライナは、ウェブ・アズ・コーパス・方法論を用いて建設中のブラジルのポルトガル語テキストの大規模なオープンコーパスである。
カロライナで最初の公開バージョンは653,322,577ドルのトークンで、7ドル以上の広さに分散している。
- 参考スコア(独自算出の注目度): 0.629199190108771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the first publicly available version of the Carolina
Corpus and discusses its future directions. Carolina is a large open corpus of
Brazilian Portuguese texts under construction using web-as-corpus methodology
enhanced with provenance, typology, versioning, and text integrality. The
corpus aims at being used both as a reliable source for research in Linguistics
and as an important resource for Computer Science research on language models,
contributing towards removing Portuguese from the set of low-resource
languages. Here we present the construction of the corpus methodology,
comparing it with other existing methodologies, as well as the corpus current
state: Carolina's first public version has $653,322,577$ tokens, distributed
over $7$ broad types. Each text is annotated with several different metadata
categories in its header, which we developed using TEI annotation standards. We
also present ongoing derivative works and invite NLP researchers to contribute
with their own.
- Abstract(参考訳): 本稿では,カロライナ・コーパスの最初の公開版を示し,今後の方向性について述べる。
カロライナは、プロヴァンス、タイポロジー、バージョニング、テキスト統合によって強化されたweb-as-corpus方法論を使用して建設中のブラジルのポルトガル語テキストの大規模なコーパスである。
コーパスは、言語学研究の信頼できる情報源として、また、言語モデルに関するコンピュータサイエンス研究の重要な情報源として、また、低リソース言語の集合からポルトガル語を取り除くことに貢献することを目的としている。
ここでは、コーパス・方法論の構築について、他の既存の方法論やコーパス・ステートと比較する:カロライナの最初のパブリック・バージョンは、653,322,577ドルのトークンを持ち、7ドル以上の広義の型に分散している。
各テキストには,TEIアノテーション標準を用いて開発したヘッダに,いくつかのメタデータカテゴリがアノテートされている。
また,現在進行中のデリバティブ・ワークを提示し,NLP研究者に独自の貢献を依頼する。
関連論文リスト
- Tucano: Advancing Neural Text Generation for Portuguese [0.0]
本研究は,ポルトガル語におけるニューラルテキスト生成の今後の発展を促進するために,新たなリソースセットを導入することを目的としている。
本研究は,ポルトガル語テキストコーパスの重複であるGigaVerboの開発について述べる。
我々のモデルは、ポルトガルのいくつかのベンチマークにおいて、同様の大きさの他のポルトガル語および多言語言語モデルと同等または優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:06Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - TArC: Tunisian Arabish Corpus First complete release [0.0]
我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。
このプロジェクトは2つの統合された独立したリソースの創出につながった。
論文 参考訳(メタデータ) (2022-07-11T11:46:59Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Prague Dependency Treebank -- Consolidated 1.0 [1.7147127043116672]
Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0)
PDT-C 1.0はチェコの4つの異なるデータセットを含み、標準のPDTスキームで一様に注釈付けされている。
ツリーバンクには、その形態的、表面的、そして深い構文的アノテーションを含む約180,000の文が含まれている。
論文 参考訳(メタデータ) (2020-06-05T20:52:55Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。