論文の概要: Hierarchical Classification of Research Fields in the "Web of Science" Using Deep Learning
- arxiv url: http://arxiv.org/abs/2302.00390v3
- Date: Thu, 25 Jul 2024 02:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 20:06:09.711724
- Title: Hierarchical Classification of Research Fields in the "Web of Science" Using Deep Learning
- Title(参考訳): 深層学習を用いた「科学ウェブ」における研究分野の階層的分類
- Authors: Susie Xi Rao, Peter H. Egger, Ce Zhang,
- Abstract要約: 本稿では,その抽象概念を用いて学術出版物を自動分類する階層分類システムを提案する。
Microsoft Academic Graphの1億6000万の抽象スニペットの中で、44の規律、718のフィールド、1,485のサブフィールドを区別している。
分類精度は77.13%で90%、シングルラベルとマルチラベルの分類では78.19%である。
- 参考スコア(独自算出の注目度): 15.915719490494876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a hierarchical classification system that automatically categorizes a scholarly publication using its abstract into a three-tier hierarchical label set (discipline, field, subfield) in a multi-class setting. This system enables a holistic categorization of research activities in the mentioned hierarchy in terms of knowledge production through articles and impact through citations, permitting those activities to fall into multiple categories. The classification system distinguishes 44 disciplines, 718 fields and 1,485 subfields among 160 million abstract snippets in Microsoft Academic Graph (version 2018-05-17). We used batch training in a modularized and distributed fashion to address and allow for interdisciplinary and interfield classifications in single-label and multi-label settings. In total, we have conducted 3,140 experiments in all considered models (Convolutional Neural Networks, Recurrent Neural Networks, Transformers). The classification accuracy is > 90% in 77.13% and 78.19% of the single-label and multi-label classifications, respectively. We examine the advantages of our classification by its ability to better align research texts and output with disciplines, to adequately classify them in an automated way, and to capture the degree of interdisciplinarity. The proposed system (a set of pre-trained models) can serve as a backbone to an interactive system for indexing scientific publications in the future.
- Abstract(参考訳): 本稿では,その抽象概念を用いて学術出版物を自動的に3階層の階層ラベルセット(ディシプリン,フィールド,サブフィールド)に分類する階層分類システムを提案する。
本システムでは, 研究活動の包括的分類を, 論文による知識生産, 引用による影響の観点から実現し, それらの活動が複数のカテゴリに分類できる。
分類システムは、Microsoft Academic Graph(バージョン2018-05-17)の1億6000万の抽象スニペットのうち、44の規律、718のフィールド、1,485のサブフィールドを区別する。
モジュール化された分散的な方法でバッチトレーニングを行い、単一ラベルと複数ラベルの設定で学際的および分野間分類を可能にしました。
総じて,すべての検討モデル(畳み込みニューラルネットワーク,リカレントニューラルネットワーク,トランスフォーマー)で3,140実験を行った。
分類精度は77.13%で90%、シングルラベルとマルチラベルの分類では78.19%である。
研究テキストと出力を規律と整合させ、それらを適切に自動で分類し、学際性の度合いを捉えることで、分類の利点を考察する。
提案システム(事前学習されたモデルの集合)は,将来,学術出版物の索引付けを行うインタラクティブシステムのバックボーンとして機能する。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Multi-Label Requirements Classification with Large Taxonomies [40.588683959176116]
大規模ラベルによる多ラベル要求分類は、要求のトレーサビリティを補助するが、教師付きトレーニングでは違法にコストがかかる。
私たちは129の要件を,250から1183のクラスから769のラベルに関連付けました。
文ベース分類は単語ベース分類と比較して有意に高いリコール率を示した。
階層的な分類戦略は要求分類の性能を必ずしも改善しなかった。
論文 参考訳(メタデータ) (2024-06-07T09:53:55Z) - Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling [0.0]
本稿では,SciBERTモデルとCNNを用いて,学術論文を体系的に分類する手法を提案する。
CNNは、畳み込みとプーリングを使用して特徴抽出を強化し、次元を減少させる。
論文 参考訳(メタデータ) (2024-04-16T05:21:47Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - Hierarchical Multi-Label Classification of Scientific Documents [47.293189105900524]
我々はSciHTCと呼ばれる科学論文の階層的多ラベルテキスト分類のための新しいデータセットを提案する。
このデータセットは、ACM CCSツリーから186,160の論文と1,233のカテゴリを含んでいる。
我々の最良のモデルでは、マクロF1スコアが34.57%に達し、このデータセットが大きな研究機会を提供することを示す。
論文 参考訳(メタデータ) (2022-11-05T04:12:57Z) - Use All The Labels: A Hierarchical Multi-Label Contrastive Learning
Framework [75.79736930414715]
本稿では,すべての利用可能なラベルを活用でき,クラス間の階層的関係を維持できる階層型多言語表現学習フレームワークを提案する。
比較損失に階層的ペナルティを併用し,その階層的制約を強制する。
論文 参考訳(メタデータ) (2022-04-27T21:41:44Z) - SciNoBo : A Hierarchical Multi-Label Classifier of Scientific
Publications [0.7305019142196583]
科学論文のフィールド・オブ・サイエンス(FoS)による分類が重要である。
本稿では,FoSの新たな分類システムであるSciNoBoを紹介する。
他の研究とは対照的に,本システムは複数の分野への出版物の割り当てを多元性の可能性を考慮して支援する。
論文 参考訳(メタデータ) (2022-04-02T15:09:33Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Inducing a hierarchy for multi-class classification problems [11.58041597483471]
分類的ラベルが自然な階層に従ったアプリケーションでは、ラベル構造を利用する分類方法は、そうでないものをしばしば上回る。
本稿では,フラット分類器に対する分類性能を向上できる階層構造を誘導する手法のクラスについて検討する。
原理シミュレーションと3つの実データアプリケーションにおいて、潜入階層の発見と精度向上のためのメソッドのクラスの有効性を実証する。
論文 参考訳(メタデータ) (2021-02-20T05:40:42Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。