論文の概要: Exploring Topic Trends in COVID-19 Research Literature using Non-Negative Matrix Factorization
- arxiv url: http://arxiv.org/abs/2503.18182v1
- Date: Sun, 23 Mar 2025 19:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:22.670581
- Title: Exploring Topic Trends in COVID-19 Research Literature using Non-Negative Matrix Factorization
- Title(参考訳): 非負性マトリックス因子化を用いたCOVID-19研究論文の話題調査
- Authors: Divya Patel, Vansh Parikh, Om Patel, Agam Shah, Bhaskar Chaudhury,
- Abstract要約: COVID-19 Open ResearchデータセットにNon-Negative Matrix Factorization (NMF)を用いたトピックモデリングを適用した。
NMFは文書終末行列を2つの非負行列に分解し、文書全体にわたるトピックとその分布を効果的に表現する。
この知見は、新型コロナウイルス研究の背景にある知識構造の理解に寄与する。
- 参考スコア(独自算出の注目度): 2.8777530051393314
- License:
- Abstract: In this work, we apply topic modeling using Non-Negative Matrix Factorization (NMF) on the COVID-19 Open Research Dataset (CORD-19) to uncover the underlying thematic structure and its evolution within the extensive body of COVID-19 research literature. NMF factorizes the document-term matrix into two non-negative matrices, effectively representing the topics and their distribution across the documents. This helps us see how strongly documents relate to topics and how topics relate to words. We describe the complete methodology which involves a series of rigorous pre-processing steps to standardize the available text data while preserving the context of phrases, and subsequently feature extraction using the term frequency-inverse document frequency (tf-idf), which assigns weights to words based on their frequency and rarity in the dataset. To ensure the robustness of our topic model, we conduct a stability analysis. This process assesses the stability scores of the NMF topic model for different numbers of topics, enabling us to select the optimal number of topics for our analysis. Through our analysis, we track the evolution of topics over time within the CORD-19 dataset. Our findings contribute to the understanding of the knowledge structure of the COVID-19 research landscape, providing a valuable resource for future research in this field.
- Abstract(参考訳): 本研究では,非負性マトリックス因子化(NMF)を用いたトピックモデリングを,COVID-19 Open Research Dataset(CORD-19)に適用し,その基礎となるテーマ構造と,その進化を解明する。
NMFは文書終末行列を2つの非負行列に分解し、文書全体のトピックとその分布を効果的に表現する。
このことは、ドキュメントがトピックとどのように関連しているか、そしてトピックが単語とどのように関係しているかを確認するのに役立ちます。
句の文脈を保存しながら、利用可能なテキストデータを標準化する一連の厳密な事前処理ステップを包含し、その後、データセットの頻度と希少度に基づいて単語に重みを割り当てる「周波数逆文書周波数」(tf-idf)という用語を用いて特徴抽出を行う。
トピックモデルの堅牢性を確保するため,安定性解析を行う。
本プロセスは,NMFトピックモデルのトピック数に対する安定性スコアを評価し,分析対象のトピック数の最適な選択を可能にする。
分析を通じて、CORD-19データセット内のトピックの時間的変化を追跡する。
この知見は, 新型コロナウイルス研究の知識構造理解に寄与し, 今後の研究に有用な資源となる。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - TopicTag: Automatic Annotation of NMF Topic Models Using Chain of Thought and Prompt Tuning with LLMs [1.1826529992155377]
非負行列分解(非負行列分解、英: Non- negative matrix factorization、NMF)は、周波数逆文書周波数(TF-IDF)行列を分解して潜在トピックを明らかにする、一般的な教師なしの手法である。
自動モデル決定法(NMFk)を用いてNMFを介してクラスタ化された文書中のトピックラベリングを自動化する手法を提案する。
そこで我々は,NMFkの出力を利用して,大規模言語モデル(LLM)を用いて正確なトピックラベルを生成する。
論文 参考訳(メタデータ) (2024-07-29T00:18:17Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - An Information Retrieval and Extraction Tool for Covid-19 Related Papers [0.0]
本論文の主な焦点は、研究者に新型コロナウイルス関連論文のより良い検索ツールを提供することである。
我々は,CORD-19論文のトピックベースの検索を自動化し,研究者を支援する可能性を示した。
論文 参考訳(メタデータ) (2024-01-20T01:34:50Z) - Exploring the evolution of research topics during the COVID-19 pandemic [3.234641429290768]
我々は,CORD-19 Topic Visualizer (CORToViz)について紹介する。
提案手法は,最新の技術(大規模言語モデルを含む)の選択と時間的トピックマイニングのための抽出技術に基づく。
トピックインスペクションはインタラクティブなダッシュボードによってサポートされており、単語クラウドやトピックトレンドを時系列として高速でワンクリックで可視化することができる。
論文 参考訳(メタデータ) (2023-10-05T22:16:41Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - A Data-driven Latent Semantic Analysis for Automatic Text Summarization
using LDA Topic Modelling [0.0]
本研究では、トピックモデリングを行うために使用されるLDA(Latent Dirichlet Allocation)アプローチを提案する。
可視化は主要なトピックを概観し、個々のトピックに対する深い意味を許容し、帰結させる。
その結果,処理文書中の話題の出現確率を考慮し,純粋にランク付けされた用語が示唆された。
論文 参考訳(メタデータ) (2022-07-23T11:04:03Z) - COVID-19 Multidimensional Kaggle Literature Organization [3.201839066679614]
因子化は文書コーパスに隠されたパターンを発見できる強力な教師なし学習手法であることを示す。
コーパスの高次表現により,類似記事,関連雑誌,類似研究論文の執筆者,話題キーワードの同時グループ化が可能となることを示す。
論文 参考訳(メタデータ) (2021-07-17T06:16:36Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。