論文の概要: COVID-19 Multidimensional Kaggle Literature Organization
- arxiv url: http://arxiv.org/abs/2107.08190v2
- Date: Tue, 20 Jul 2021 01:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 11:52:31.478928
- Title: COVID-19 Multidimensional Kaggle Literature Organization
- Title(参考訳): 新型コロナウイルスの多次元カグル文学機関
- Authors: Maksim E. Eren, Nick Solovyev, Chris Hamer, Renee McDonald, Boian S.
Alexandrov, Charles Nicholas
- Abstract要約: 因子化は文書コーパスに隠されたパターンを発見できる強力な教師なし学習手法であることを示す。
コーパスの高次表現により,類似記事,関連雑誌,類似研究論文の執筆者,話題キーワードの同時グループ化が可能となることを示す。
- 参考スコア(独自算出の注目度): 3.201839066679614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unprecedented outbreak of Severe Acute Respiratory Syndrome Coronavirus-2
(SARS-CoV-2), or COVID-19, continues to be a significant worldwide problem. As
a result, a surge of new COVID-19 related research has followed suit. The
growing number of publications requires document organization methods to
identify relevant information. In this paper, we expand upon our previous work
with clustering the CORD-19 dataset by applying multi-dimensional analysis
methods. Tensor factorization is a powerful unsupervised learning method
capable of discovering hidden patterns in a document corpus. We show that a
higher-order representation of the corpus allows for the simultaneous grouping
of similar articles, relevant journals, authors with similar research
interests, and topic keywords. These groupings are identified within and among
the latent components extracted via tensor decomposition. We further
demonstrate the application of this method with a publicly available
interactive visualization of the dataset.
- Abstract(参考訳): 重症急性呼吸症候群 コロナウイルス-2(SARS-CoV-2)の流行は、世界中で大きな問題となっている。
その結果、新型コロナウイルス(covid-19)関連の研究が急増している。
出版物の増加には、関連する情報を特定するための文書組織手法が必要である。
本稿では,CORD-19データセットのクラスタ化に関するこれまでの研究を多次元解析手法を用いて拡張する。
テンソル因子化は、文書コーパス内の隠れパターンを発見することができる強力な教師なし学習手法である。
コーパスの高次表現により,類似記事,関連雑誌,類似研究論文の執筆者,話題キーワードの同時グループ化が可能となることを示す。
これらのグルーピングはテンソル分解によって抽出された潜在成分の内外において同定される。
さらに,データセットのインタラクティブな可視化により,本手法の適用を実証する。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - An Information Retrieval and Extraction Tool for Covid-19 Related Papers [0.0]
本論文の主な焦点は、研究者に新型コロナウイルス関連論文のより良い検索ツールを提供することである。
我々は,CORD-19論文のトピックベースの検索を自動化し,研究者を支援する可能性を示した。
論文 参考訳(メタデータ) (2024-01-20T01:34:50Z) - Exploring the evolution of research topics during the COVID-19 pandemic [3.234641429290768]
我々は,CORD-19 Topic Visualizer (CORToViz)について紹介する。
提案手法は,最新の技術(大規模言語モデルを含む)の選択と時間的トピックマイニングのための抽出技術に基づく。
トピックインスペクションはインタラクティブなダッシュボードによってサポートされており、単語クラウドやトピックトレンドを時系列として高速でワンクリックで可視化することができる。
論文 参考訳(メタデータ) (2023-10-05T22:16:41Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Contrastive analysis for scatter plot-based representations of
dimensionality reduction [0.0]
本稿では,マルチ次元データセットを探索し,クラスタの形成を解釈する手法を提案する。
また,属性がクラスタ形成にどのように影響するかを理解するために使用される統計変数間の関係を視覚的に解釈し,探索する二部グラフも導入する。
論文 参考訳(メタデータ) (2021-01-26T01:16:31Z) - Navigating the landscape of COVID-19 research through literature
analysis: A bird's eye view [11.362549790802483]
我々は、2020年5月15日時点でPubMedで見つかった13,369のCOVID-19関連記事、LitCovidコレクションを分析した。
我々は、最先端のエンティティ認識、分類、クラスタリング、その他のNLP技術を適用する。
クラスタリングアルゴリズムは,関連用語群で表されるトピックを識別し,関連する文書に対応するクラスタを算出する。
論文 参考訳(メタデータ) (2020-08-07T23:39:29Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z) - Target specific mining of COVID-19 scholarly articles using one-class
approach [3.4935179780034247]
本稿では,機械学習を用いたコロナウイルス関連研究論文の活動と動向を抽出することを目的とする。
k-meansクラスタリングアルゴリズムは、並列なOCSVMに続き、元の特徴空間と縮小された特徴空間の両方において、他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-24T12:39:54Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。