論文の概要: Multilingual Open Text 1.0: Public Domain News in 44 Languages
- arxiv url: http://arxiv.org/abs/2201.05609v1
- Date: Fri, 14 Jan 2022 18:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 14:51:46.873352
- Title: Multilingual Open Text 1.0: Public Domain News in 44 Languages
- Title(参考訳): Multilingual Open Text 1.0:44言語でのパブリックドメインニュース
- Authors: Chester Palen-Michel, June Kim, Constantine Lignos
- Abstract要約: コーパスの最初のリリースには270万以上のニュース記事と、2001年から2021年にかけて発行された100万の短い記事が含まれている。
ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。
- 参考スコア(独自算出の注目度): 2.642698101441705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new multilingual corpus containing text in 44 languages, many of
which have relatively few existing resources for natural language processing.
The first release of the corpus contains over 2.7 million news articles and 1
million shorter passages published between 2001--2021, collected from Voice of
America news websites. We describe our process for collecting, filtering, and
processing the data. The source material is in the public domain, our
collection is licensed using a creative commons license (CC BY 4.0), and all
software used to create the corpus is released under the MIT License. The
corpus will be regularly updated as additional documents are published.
- Abstract(参考訳): 本稿では,44言語にテキストを含む新しい多言語コーパスを提案する。
コーパスの最初のリリースは、2001年から2021年にかけて、Voice of Americaのニュースサイトから集められた270万以上のニュース記事と100万の短い記事を含んでいる。
我々は,データの収集,フィルタリング,処理を行うプロセスについて述べる。
ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。
コーパスは、追加のドキュメントが公開されると定期的に更新される。
関連論文リスト
- MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - LR-Sum: Summarization for Less-Resourced Languages [12.605915166622818]
このプレプリントでは、新しいパーミッシブライセンスデータセットであるLR-Sumの開発が進行中である。
LR-Sumには40言語のための人間による要約が含まれており、その多くはオープンソースではない。
ソースデータはVoice of Americaのウェブサイトから収集されたパブリックドメインのニュースワイヤであり、LR-Sumはクリエイティブ・コモンズ・ライセンス(CC BY 4.0)の下でリリースされている。
論文 参考訳(メタデータ) (2022-12-19T18:00:09Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。