論文の概要: MN-DS: A Multilabeled News Dataset for News Articles Hierarchical
Classification
- arxiv url: http://arxiv.org/abs/2212.12061v2
- Date: Sun, 19 Mar 2023 12:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:49:30.858356
- Title: MN-DS: A Multilabeled News Dataset for News Articles Hierarchical
Classification
- Title(参考訳): mn-ds:ニュース記事階層分類のためのマルチラベルニュースデータセット
- Authors: Alina Petukhova, Nuno Fachada
- Abstract要約: この記事では、2019年1月1日から12月31日までに収集された階層的なニュースカテゴリを持つ10,917のニュース記事のデータセットを示す。
記事は17の第一級と109の第二級の階層的な分類に基づいて手動でラベル付けした。
このデータセットは、トピック毎にニュース記事を自動的に分類するマシンラーニングモデルをトレーニングするために使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents a dataset of 10,917 news articles with hierarchical
news categories collected between January 1st 2019, and December 31st 2019. We
manually labelled the articles based on a hierarchical taxonomy with 17
first-level and 109 second-level categories. This dataset can be used to train
machine learning models for automatically classifying news articles by topic.
This dataset can be helpful for researchers working on news structuring,
classification, and predicting future events based on released news.
- Abstract(参考訳): 本稿は、2019年1月1日から12月31日までに収集された階層的なニュースカテゴリを持つ10,917のニュース記事のデータセットを示す。
17の1次分類と109の2次分類の階層分類に基づいて,手作業で記事を分類した。
このデータセットは、ニュース記事を自動的にトピック別に分類する機械学習モデルのトレーニングに使用することができる。
このデータセットは、リリースされたニュースに基づいて、ニュース構造化、分類、将来のイベントを予測する研究者に役立つ。
関連論文リスト
- TeClass: A Human-Annotated Relevance-based Headline Classification and Generation Dataset for Telugu [4.272315504476224]
関連性に基づく見出し分類は、関連する見出しを生成するタスクを大いに助ける。
本稿では,TeClassについて紹介する。
ROUGE-Lスコアの約5ポイント向上を示した。
論文 参考訳(メタデータ) (2024-04-17T13:07:56Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - Hierarchical Multi-Label Classification of Scientific Documents [47.293189105900524]
我々はSciHTCと呼ばれる科学論文の階層的多ラベルテキスト分類のための新しいデータセットを提案する。
このデータセットは、ACM CCSツリーから186,160の論文と1,233のカテゴリを含んでいる。
我々の最良のモデルでは、マクロF1スコアが34.57%に達し、このデータセットが大きな研究機会を提供することを示す。
論文 参考訳(メタデータ) (2022-11-05T04:12:57Z) - News Category Dataset [1.7513645771137178]
HuffPostから入手した2012年から2018年までの約200万のニュースの見出しを含むNews Categoryデータセットを提示する。
本稿では,データセットから新たな知見を導き,データセットの既存および潜在的応用について述べる。
論文 参考訳(メタデータ) (2022-09-23T06:13:16Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - N15News: A New Dataset for Multimodal News Classification [7.846107230241092]
我々は、New York Timesから15のカテゴリで生成され、各ニュースにテキスト情報と画像情報の両方を含む新しいデータセット、N15Newsを提案する。
融合方式の異なる新しいマルチタスクマルチモーダルネットワークを設計し,テキストのみのニュース分類よりも多モーダルニュース分類が優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2021-08-30T15:46:09Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Solomon at SemEval-2020 Task 11: Ensemble Architecture for Fine-Tuned
Propaganda Detection in News Articles [0.3232625980782302]
本稿では,第11節「新聞記事におけるプロパガンダ技術の検出」に参画したシステム(ソロモン)の詳細と成果について述べる。
プロパガンダデータセットの微調整にRoBERTaベースのトランスフォーマーアーキテクチャを使用した。
他の参加システムと比較して、私たちの応募はリーダーボードで4位です。
論文 参考訳(メタデータ) (2020-09-16T05:00:40Z) - 365 Dots in 2019: Quantifying Attention of News Sources [69.50862982117125]
様々な情報源から,オンラインニュース記事の話題の重複を計測する。
ほぼリアルタイムで注目度に応じてニュースストーリーを採点する。
これにより、最も注目を集めているトピックを識別するなど、複数の研究が可能になる。
論文 参考訳(メタデータ) (2020-03-22T20:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。