論文の概要: Analyzing Scientific Publications using Domain-Specific Word Embedding
and Topic Modelling
- arxiv url: http://arxiv.org/abs/2112.12940v1
- Date: Fri, 24 Dec 2021 04:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 17:02:59.409631
- Title: Analyzing Scientific Publications using Domain-Specific Word Embedding
and Topic Modelling
- Title(参考訳): ドメイン特化語埋め込みとトピックモデリングを用いた科学出版の分析
- Authors: Trisha Singhal, Junhua Liu, Lucienne T.M. Blessing, Kwan Hui Lim
- Abstract要約: 本稿では学術出版物の科学的分析を行うための枠組みを提案する。
自然言語処理の様々な技術、例えば単語の埋め込みやトピックモデリングを組み合わせる。
PUB-G と PUB-W という2つの新しい科学論文の埋め込みを提案する。
- 参考スコア(独自算出の注目度): 0.6308539010172307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scientific world is changing at a rapid pace, with new technology being
developed and new trends being set at an increasing frequency. This paper
presents a framework for conducting scientific analyses of academic
publications, which is crucial to monitor research trends and identify
potential innovations. This framework adopts and combines various techniques of
Natural Language Processing, such as word embedding and topic modelling. Word
embedding is used to capture semantic meanings of domain-specific words. We
propose two novel scientific publication embedding, i.e., PUB-G and PUB-W,
which are capable of learning semantic meanings of general as well as
domain-specific words in various research fields. Thereafter, topic modelling
is used to identify clusters of research topics within these larger research
fields. We curated a publication dataset consisting of two conferences and two
journals from 1995 to 2020 from two research domains. Experimental results show
that our PUB-G and PUB-W embeddings are superior in comparison to other
baseline embeddings by a margin of ~0.18-1.03 based on topic coherence.
- Abstract(参考訳): 科学の世界は急速に変化しており、新しい技術が開発され、新しい傾向が出現している。
本稿では,学術出版物の科学的分析を行うための枠組みを提案する。
このフレームワークは、単語埋め込みやトピックモデリングなど、自然言語処理の様々な技術を採用し、組み合わせている。
単語埋め込みはドメイン固有語の意味的意味を捉えるために使われる。
本稿では,様々な研究分野において,一般の意味的意味とドメイン固有語を学習できる2つの新しい科学論文の埋め込み,すなわちpub-gとpub-wを提案する。
その後、これらの大規模研究分野における研究トピックのクラスターを特定するためにトピックモデリングが使用される。
2つの研究領域から1995年から2020年までの2つのカンファレンスと2つのジャーナルからなる出版データセットを収集した。
PUB-G と PUB-W の埋め込みは,トピックコヒーレンスに基づく ~0.18-1.03 のマージンの他のベースライン埋め込みに比べて優れていることを示す。
関連論文リスト
- A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference [65.37685198688538]
本稿では,5つの科学領域から抽出した132,320の文対を含むデータセットであるMSciNLIについて述べる。
我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。
ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-04-11T18:12:12Z) - AHAM: Adapt, Help, Ask, Model -- Harvesting LLMs for literature mining [3.8384235322772864]
本稿では、BERTopicトピックモデリングフレームワークのドメイン固有のテキストbfadaptationをガイドするAHAMの方法論とメトリクスについて述べる。
LLaMa2生成言語モデルを利用することで、ワンショット学習によるトピック定義を生成する。
トピック間の類似度評価には、言語生成および翻訳プロセスからのメトリクスを利用する。
論文 参考訳(メタデータ) (2023-12-25T18:23:03Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Revise and Resubmit: An Intertextual Model of Text-based Collaboration
in Peer Review [52.359007622096684]
ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。
既存のNLP研究は個々のテキストの分析に重点を置いている。
編集補助は、しばしばテキストのペア間の相互作用をモデル化する必要がある。
論文 参考訳(メタデータ) (2022-04-22T16:39:38Z) - SciNoBo : A Hierarchical Multi-Label Classifier of Scientific
Publications [0.7305019142196583]
科学論文のフィールド・オブ・サイエンス(FoS)による分類が重要である。
本稿では,FoSの新たな分類システムであるSciNoBoを紹介する。
他の研究とは対照的に,本システムは複数の分野への出版物の割り当てを多元性の可能性を考慮して支援する。
論文 参考訳(メタデータ) (2022-04-02T15:09:33Z) - Change Summarization of Diachronic Scholarly Paper Collections by
Semantic Evolution Analysis [10.554831859741851]
本研究では,長期間にわたる研究論文の収集を解析するための新しい手法を実証する。
我々のアプローチは、時間とともに単語の意味表現を比較することに基づいており、学術出版物の大規模なドメイン中心のアーカイブをより深く理解することを目的としている。
論文 参考訳(メタデータ) (2021-12-07T11:15:19Z) - Domain-adaptation of spherical embeddings [0.0]
本研究では,埋め込み空間のグローバルなローテーションに対応する手法を開発し,ドメイン固有トレーニング中に単語や文書を更新する手法を提案する。
我々は,我々の戦略がWord2Vecと同じようなレベルにドメイン適応の性能コストを下げることができることを示した。
論文 参考訳(メタデータ) (2021-11-01T03:29:36Z) - Domain Generalization: A Survey [146.68420112164577]
ドメイン一般化(DG)は、モデル学習にソースドメインデータを使用するだけでOOD一般化を実現することを目的としています。
初めて、DGの10年の開発をまとめるために包括的な文献レビューが提供されます。
論文 参考訳(メタデータ) (2021-03-03T16:12:22Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Semantic and Relational Spaces in Science of Science: Deep Learning
Models for Article Vectorisation [4.178929174617172]
我々は、自然言語処理(NLP)とグラフニューラルネットワーク(GNN)を用いて、記事の意味的・関係的な側面に基づく文書レベルの埋め込みに焦点を当てる。
論文のセマンティックな空間をNLPでエンコードできるのに対し、GNNでは研究コミュニティの社会的実践をエンコードするリレーショナルな空間を構築することができる。
論文 参考訳(メタデータ) (2020-11-05T14:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。