論文の概要: Topic Modelling of Swedish Newspaper Articles about Coronavirus: a Case
Study using Latent Dirichlet Allocation Method
- arxiv url: http://arxiv.org/abs/2301.03029v1
- Date: Sun, 8 Jan 2023 12:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 17:29:03.429298
- Title: Topic Modelling of Swedish Newspaper Articles about Coronavirus: a Case
Study using Latent Dirichlet Allocation Method
- Title(参考訳): コロナウイルスに関するスウェーデンの新聞記事のトピックモデリング:潜在ディリクレ割当法による事例研究
- Authors: Bernadeta Grici\=ut\.e and Lifeng Han and Alexander Koller and Goran
Nenadic
- Abstract要約: トピックモデリング(TM)は、自然言語理解(NLU)と自然言語処理(NLP)の研究分野からのものである。
本研究では,LDA(Latent Dirichlet Allocation)法を用いて,コロナウイルスに関するスウェーデンの新聞記事の話題変化をモデル化する。
我々は,2020年1月17日から2021年3月13日までの約1年2ヶ月間のトピック変更に関する6515の論文,適用方法,統計データを含むコーパスについて述べる。
- 参考スコア(独自算出の注目度): 76.08417511187909
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Topic Modelling (TM) is from the research branches of natural language
understanding (NLU) and natural language processing (NLP) that is to facilitate
insightful analysis from large documents and datasets, such as a summarisation
of main topics and the topic changes. This kind of discovery is getting more
popular in real-life applications due to its impact on big data analytics. In
this study, from the social-media and healthcare domain, we apply popular
Latent Dirichlet Allocation (LDA) methods to model the topic changes in Swedish
newspaper articles about Coronavirus. We describe the corpus we created
including 6515 articles, methods applied, and statistics on topic changes over
approximately 1 year and two months period of time from 17th January 2020 to
13th March 2021. We hope this work can be an asset for grounding applications
of topic modelling and can be inspiring for similar case studies in an era with
pandemics, to support socio-economic impact research as well as clinical and
healthcare analytics. Our data is openly available at https://github.
com/poethan/Swed_Covid_TM Keywords: Latent Dirichlet Allocation (LDA); Topic
Modelling; Coronavirus; Pandemics; Natural Language Understanding
- Abstract(参考訳): トピックモデリング(TM)は、自然言語理解(NLU)と自然言語処理(NLP)の研究部門から生まれたもので、主要なトピックの要約やトピックの変更など、大きなドキュメントやデータセットからの洞察に富んだ分析を容易にする。
この種の発見は、ビッグデータ分析の影響により、現実のアプリケーションで人気が高まっている。
本研究では,スウェーデンの新聞記事における新型コロナウイルスに関する話題の変化をモデル化するために,ソーシャル・メディア・医療分野からlda手法を適用した。
我々は,2020年1月17日から2021年3月13日までの約1年2ヶ月間の話題変化に関する6515の論文,適用方法,統計を含むコーパスを作成した。
我々は、この研究がトピックモデリングの応用の基盤となり、パンデミック時代の同様のケーススタディに刺激を与え、社会経済的影響の研究と臨床・医療分析を支援することができることを願っている。
私たちのデータはhttps://github.com/で公開されています。
pic.com/poethan/Swed_Covid_TM Keywords: Latent Dirichlet Allocation (LDA)、トピックモデリング、コロナウイルス、パンデミック、自然言語理解
関連論文リスト
- Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Discovering Mental Health Research Topics with Topic Modeling [13.651763262606782]
本研究は,精神保健研究論文の大規模データセットを解析することにより,現場における一般的な傾向を把握し,ハイインパクトな研究トピックを特定することを目的とする。
本データセットは、精神保健に関する96,676件の研究論文からなり、その要約を用いて、異なるトピック間の関係を調べることができる。
分析を強化するため,精神保健研究に応用された機械学習モデルの包括的概要を提供するために,ワードクラウドも生成した。
論文 参考訳(メタデータ) (2023-08-25T05:25:05Z) - A Data-driven Latent Semantic Analysis for Automatic Text Summarization
using LDA Topic Modelling [0.0]
本研究では、トピックモデリングを行うために使用されるLDA(Latent Dirichlet Allocation)アプローチを提案する。
可視化は主要なトピックを概観し、個々のトピックに対する深い意味を許容し、帰結させる。
その結果,処理文書中の話題の出現確率を考慮し,純粋にランク付けされた用語が示唆された。
論文 参考訳(メタデータ) (2022-07-23T11:04:03Z) - COVID-19 Literature Mining and Retrieval using Text Mining Approaches [0.0]
新型コロナウイルス感染症(COVID-19)は2019年後半に武漢で発生し、これまでに全世界で1億4800万人以上が感染している。
多くの学者や研究者が、covid-19に関する最新の発見を説明する論文を公表し始めた。
提案モデルでは,研究論文の大規模コーパスから残酷なタイトルを抽出しようと試みている。
論文 参考訳(メタデータ) (2022-05-29T22:34:19Z) - Neural language models for text classification in evidence-based
medicine [3.5770353345663044]
エビデンス・ベース・メディカル(EBM)は、毎日発行される大量の研究論文とプレプリントのために、これまでになく挑戦されている。
本稿では,学術論文を分類し,エピステミコスを支援するための応用研究プロジェクトの結果を報告する。
我々はいくつかの手法を検証し、XLNetニューラルネットワークモデルに基づく最良の手法は、F1スコアの平均で現在のアプローチを93%改善する。
論文 参考訳(メタデータ) (2020-12-01T15:53:44Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - A Cross-lingual Natural Language Processing Framework for Infodemic
Management [0.6606016007748989]
新型コロナウイルス(COVID-19)のパンデミックは、医療システムに多大な圧力をかけている。
我々は,一般大衆に散布する必要がある関連情報を特定するために,自然言語処理の可能性を利用した。
我々は,世界保健機関の信頼できるガイドラインと日々のニュースを一致させて,関連情報を提供する,新たな言語間自然言語処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-30T16:26:35Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。