論文の概要: The Danish Gigaword Project
- arxiv url: http://arxiv.org/abs/2005.03521v3
- Date: Wed, 12 May 2021 20:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:14:28.411028
- Title: The Danish Gigaword Project
- Title(参考訳): デンマークのgigawordプロジェクト
- Authors: Leon Str{\o}mberg-Derczynski, Manuel R. Ciosici, Rebekah Baglini,
Morten H. Christiansen, Jacob Aarup Dalsgaard, Riccardo Fusaroli, Peter Juel
Henrichsen, Rasmus Hvingelby, Andreas Kirkedal, Alex Speed Kjeldsen, Claus
Ladefoged, Finn {\AA}rup Nielsen, Malte Lau Petersen, Jonathan Hvithamar
Rystr{\o}m, Daniel Varab
- Abstract要約: デンマークの言語技術は、現代のNLPが好む規模での広包コーパスの欠如によって妨げられている。
本稿では,デンマーク語テキストの多様かつ自由な10億語コーパスの提供を目的としたデンマーク語ギガワードコーパスについて述べる。
- 参考スコア(独自算出の注目度): 3.0333125211907697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Danish language technology has been hindered by a lack of broad-coverage
corpora at the scale modern NLP prefers. This paper describes the Danish
Gigaword Corpus, the result of a focused effort to provide a diverse and
freely-available one billion word corpus of Danish text. The Danish Gigaword
corpus covers a wide array of time periods, domains, speakers' socio-economic
status, and Danish dialects.
- Abstract(参考訳): デンマークの言語技術は、現代のNLPが好む規模での広包コーパスの欠如によって妨げられている。
本稿では,デンマーク語テキストの多様かつ自由な10億語コーパスの提供を目的としたデンマーク語ギガワードコーパスについて述べる。
デンマークのギガワードコーパスは、幅広い期間、ドメイン、話者の社会経済的地位、デンマーク方言をカバーしている。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish
Biomedical Language Models [0.05277024349608833]
CoWeSeは、2020年に実行された3000のスペインドメインの大規模なクローラーの結果です。
コーパスは公開されており、すでに前処理されている。
CoWeSeはスペイン語のバイオメディカルおよび健康NLPにとって重要な資源である。
論文 参考訳(メタデータ) (2021-09-16T07:22:28Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z) - Corpora Compared: The Case of the Swedish Gigaword & Wikipedia Corpora [1.6507910904669727]
与えられた言語に対する異なるソースデータからの埋め込みの性能の違いは、データサイズ以外の要因による可能性があることを示す。
The Gigaword and Wikipedia, in analogy (intrinsic) test and discover that the embeddings from the Wikipedia corpus are outperform of the Gigaword corpus。
論文 参考訳(メタデータ) (2020-11-06T11:00:47Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z) - FT Speech: Danish Parliament Speech Corpus [21.190182627955817]
本稿では,デンマーク議会の会議記録から作成した音声コーパスであるFT Speechを紹介する。
コーパスには、合計434人の話者による1,800時間以上の音声の書き起こしが含まれている。
これは、デンマークの既存の公用語コーパスよりも、持続時間、語彙、自然発話の量において著しく大きい。
論文 参考訳(メタデータ) (2020-05-25T19:51:18Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。