論文の概要: Potrika: Raw and Balanced Newspaper Datasets in the Bangla Language with
Eight Topics and Five Attributes
- arxiv url: http://arxiv.org/abs/2210.09389v1
- Date: Mon, 17 Oct 2022 19:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:09:43.628850
- Title: Potrika: Raw and Balanced Newspaper Datasets in the Bangla Language with
Eight Topics and Five Attributes
- Title(参考訳): potrika: バングラ語で8つのトピックと5つの属性を持つ生とバランスのとれた新聞データセット
- Authors: Istiak Ahmad, Fahad AlQurashi, Rashid Mehmood
- Abstract要約: Potrikaはバングラデシュの6つの人気のあるオンラインニュースポータルからNLP研究のためにキュレートされた巨大なシングルラベルのバングラニュース記事テキストデータセットである。
生のデータセットには185.51万語と1257万文が含まれ、664,880のニュース記事に含まれている。
ポトリカはニュース分類のための最大かつ最も広範なデータセットである。
- 参考スコア(独自算出の注目度): 0.36832029288386137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge is central to human and scientific developments. Natural Language
Processing (NLP) allows automated analysis and creation of knowledge. Data is a
crucial NLP and machine learning ingredient. The scarcity of open datasets is a
well-known problem in machine and deep learning research. This is very much the
case for textual NLP datasets in English and other major world languages. For
the Bangla language, the situation is even more challenging and the number of
large datasets for NLP research is practically nil. We hereby present Potrika,
a large single-label Bangla news article textual dataset curated for NLP
research from six popular online news portals in Bangladesh (Jugantor,
Jaijaidin, Ittefaq, Kaler Kontho, Inqilab, and Somoyer Alo) for the period
2014-2020. The articles are classified into eight distinct categories
(National, Sports, International, Entertainment, Economy, Education, Politics,
and Science \& Technology) providing five attributes (News Article, Category,
Headline, Publication Date, and Newspaper Source). The raw dataset contains
185.51 million words and 12.57 million sentences contained in 664,880 news
articles. Moreover, using NLP augmentation techniques, we create from the raw
(unbalanced) dataset another (balanced) dataset comprising 320,000 news
articles with 40,000 articles in each of the eight news categories. Potrika
contains both the datasets (raw and balanced) to suit a wide range of NLP
research. By far, to the best of our knowledge, Potrika is the largest and the
most extensive dataset for news classification.
- Abstract(参考訳): 知識は人間と科学の発展の中心である。
自然言語処理(nlp)は知識の自動分析と生成を可能にする。
データは重要なNLPと機械学習の要素である。
オープンデータセットの不足は、機械学習とディープラーニングの研究でよく知られた問題である。
これは、英語や他の主要世界の言語におけるテキストNLPデータセットの場合、ほとんど同じである。
バングラ語では、状況はさらに難しく、NLP研究のための大規模なデータセットの数は事実上ゼロである。
ここでは,バングラデシュの6つの人気オンラインニュースポータル(jugantor, jaijaidin, ittefaq, kaler kontho, inqilab, somoyer alo)から,2014~2020年の期間にnlp調査用にキュレートされた,バングラデシュの単一ラベルニュース記事textual datasetについて紹介する。
記事は8つのカテゴリー(全国、スポーツ、国際、エンターテイメント、経済、教育、政治、科学)に分類され、5つの属性(ニュース記事、カテゴリー、見出し、出版日、新聞の出典)を提供している。
生のデータセットには185.51万語と1257万文が含まれ、664,880のニュース記事に含まれている。
さらに,NLP増強手法を用いて,8つのニュースカテゴリーのそれぞれに320,000のニュース記事と4万の記事からなる生(不均衡)データセットを作成した。
Potrikaは、幅広いNLP研究に適したデータセット(生とバランス)の両方を含んでいる。
これまでのところ、私たちの知る限りでは、potrikaはニュース分類のための最大かつ最も広範なデータセットです。
関連論文リスト
- The 2021 Tokyo Olympics Multilingual News Article Dataset [0.9749638953163389]
2021年オリンピックの1,350のサブイベントをカバーする1,918の異なる出版社から、合計で10,940のニュース記事が集められた。
これらの記事は、異なる言語族と異なるスクリプトの9つの言語で書かれています。
このデータセットの開発は、多言語ニュースクラスタリングアルゴリズムの性能を評価するためのリソースを提供することを目的としている。
論文 参考訳(メタデータ) (2025-02-10T16:38:03Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages [0.4194295877935868]
L3Cube-IndicNewsは、インドの地域言語のための高品質なデータセットのキュレーションを目的とした多言語テキスト分類コーパスである。
私たちはヒンディー語、ベンガル語、マラティ語、テルグ語、タミル語、グジャラート語、カンナダ語、オディア語、マラヤラム語、パンジャービ語を含む10の著名なインド語を中心にしています。
これらのニュースデータセットはそれぞれ10以上のニュース記事のクラスで構成されている。
論文 参考訳(メタデータ) (2024-01-04T13:11:17Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - News Category Dataset [1.7513645771137178]
HuffPostから入手した2012年から2018年までの約200万のニュースの見出しを含むNews Categoryデータセットを提示する。
本稿では,データセットから新たな知見を導き,データセットの既存および潜在的応用について述べる。
論文 参考訳(メタデータ) (2022-09-23T06:13:16Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文 参考訳(メタデータ) (2021-03-10T16:36:39Z) - A System for Worldwide COVID-19 Information Aggregation [92.60866520230803]
我々は、トピックによって分類された7言語10の地域から信頼できる記事を含む世界的な新型コロナウイルス情報収集システムを構築した。
ニューラルマシン翻訳モジュールは、他言語の論文を日本語と英語に翻訳する。
記事とトピックのペアデータセットに基づいてトレーニングされたBERTベースのトピック分類器は、ユーザが興味のある情報を効率的に見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-07-28T01:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。