論文の概要: Hierarchical Classification of Research Fields in the "Web of Science"
Using Deep Learning
- arxiv url: http://arxiv.org/abs/2302.00390v1
- Date: Wed, 1 Feb 2023 11:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:07:09.111555
- Title: Hierarchical Classification of Research Fields in the "Web of Science"
Using Deep Learning
- Title(参考訳): 深層学習を用いた「科学ウェブ」における研究分野の階層的分類
- Authors: Susie Xi Rao, Peter H. Egger, Ce Zhang
- Abstract要約: 本稿では,その抽象概念を用いて学術出版物を自動的に3階層の階層ラベルに分類する階層分類システムを提案する。
この分類システムは、Microsoft Academic Graphの1億6000万の抽象スニペットを扱うことができる。
全モデルで3140実験を行い、分類精度は77.84%で90%、シングルラベルとマルチラベルの分類では78.83%であった。
- 参考スコア(独自算出の注目度): 11.280612344954562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scholarly publication space is growing steadily not just in numbers but
also in complexity due to collaboration between individuals from within and
across fields of research. This paper presents a hierarchical classification
system that automatically categorizes a scholarly publication using its
abstract into a three-tier hierarchical label set of fields
(discipline-field-subfield). This system enables a holistic view about the
interdependence of research activities in the mentioned hierarchical tiers in
terms of knowledge production through articles and impact through citations.
The classification system (44 disciplines - 738 fields - 1,501 subfields)
utilizes and is able to cope with 160 million abstract snippets in Microsoft
Academic Graph (Version 2018-05-17) using batch training in a modularized and
distributed fashion to address and assess interdisciplinarity and inter-field
classifications. In addition, we have explored multi-class classifications in
both the single-label and multi-label settings. In total, we have conducted
3,140 experiments, in all models (Convolutional Neural Networks, Recurrent
Neural Networks, Transformers), the classification accuracy is > 90% in 77.84%
and 78.83% of the single-label and multi-label classifications, respectively.
We examine the advantages of our classification by its ability to better align
research texts and output with disciplines, to adequately classify them in an
automated way, as well as to capture the degree of interdisciplinarity in a
publication which enables downstream analytics such as field
interdisciplinarity. This system (a set of pretrained models) can serve as a
backbone to an interactive system of indexing scientific publications.
- Abstract(参考訳): 学術出版分野は、数だけでなく、研究分野の内外からの個人同士の協力による複雑さも着実に成長している。
本稿では,その抽象概念を用いて学術出版物を3階層の分野(学際フィールド・サブフィールド)に分類する階層分類システムを提案する。
本システムでは,上記の階層層における研究活動の相互依存性を,記事を通じての知識生産と引用による影響の観点から総合的に捉えることができる。
分類システム(44の規律 - 738のフィールド - 1,501のサブフィールド)は、Microsoft Academic Graph(Version 2018-05-17)の1億6000万の抽象スニペットを、モジュール化された分散された方法でバッチトレーニングを使用して、学際性と分野間分類に対処し、評価することができる。
さらに,シングルラベル設定とマルチラベル設定の両方において,マルチクラス分類について検討した。
全モデル(畳み込みニューラルネットワーク、リカレントニューラルネットワーク、トランスフォーマー)において、分類精度は77.84%で90%以上、単一ラベルと複数ラベルの分類で78.83%以上である。
本分類の利点は,研究テキストとアウトプットを規律に合致させ,それらを適切に自動分類する能力と,分野間学際性などの下流分析を可能にする出版物における学際性の程度を把握できることにある。
このシステム(事前訓練されたモデルの集合)は、科学論文をインデクシングするインタラクティブシステムのバックボーンとして機能することができる。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Multi-Label Requirements Classification with Large Taxonomies [40.588683959176116]
大規模ラベルによる多ラベル要求分類は、要求のトレーサビリティを補助するが、教師付きトレーニングでは違法にコストがかかる。
私たちは129の要件を,250から1183のクラスから769のラベルに関連付けました。
文ベース分類は単語ベース分類と比較して有意に高いリコール率を示した。
階層的な分類戦略は要求分類の性能を必ずしも改善しなかった。
論文 参考訳(メタデータ) (2024-06-07T09:53:55Z) - Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling [0.0]
本稿では,SciBERTモデルとCNNを用いて,学術論文を体系的に分類する手法を提案する。
CNNは、畳み込みとプーリングを使用して特徴抽出を強化し、次元を減少させる。
論文 参考訳(メタデータ) (2024-04-16T05:21:47Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - Hierarchical Multi-Label Classification of Scientific Documents [47.293189105900524]
我々はSciHTCと呼ばれる科学論文の階層的多ラベルテキスト分類のための新しいデータセットを提案する。
このデータセットは、ACM CCSツリーから186,160の論文と1,233のカテゴリを含んでいる。
我々の最良のモデルでは、マクロF1スコアが34.57%に達し、このデータセットが大きな研究機会を提供することを示す。
論文 参考訳(メタデータ) (2022-11-05T04:12:57Z) - Use All The Labels: A Hierarchical Multi-Label Contrastive Learning
Framework [75.79736930414715]
本稿では,すべての利用可能なラベルを活用でき,クラス間の階層的関係を維持できる階層型多言語表現学習フレームワークを提案する。
比較損失に階層的ペナルティを併用し,その階層的制約を強制する。
論文 参考訳(メタデータ) (2022-04-27T21:41:44Z) - SciNoBo : A Hierarchical Multi-Label Classifier of Scientific
Publications [0.7305019142196583]
科学論文のフィールド・オブ・サイエンス(FoS)による分類が重要である。
本稿では,FoSの新たな分類システムであるSciNoBoを紹介する。
他の研究とは対照的に,本システムは複数の分野への出版物の割り当てを多元性の可能性を考慮して支援する。
論文 参考訳(メタデータ) (2022-04-02T15:09:33Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Inducing a hierarchy for multi-class classification problems [11.58041597483471]
分類的ラベルが自然な階層に従ったアプリケーションでは、ラベル構造を利用する分類方法は、そうでないものをしばしば上回る。
本稿では,フラット分類器に対する分類性能を向上できる階層構造を誘導する手法のクラスについて検討する。
原理シミュレーションと3つの実データアプリケーションにおいて、潜入階層の発見と精度向上のためのメソッドのクラスの有効性を実証する。
論文 参考訳(メタデータ) (2021-02-20T05:40:42Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。