論文の概要: Enriched BERT Embeddings for Scholarly Publication Classification
- arxiv url: http://arxiv.org/abs/2405.04136v1
- Date: Tue, 7 May 2024 09:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:39:54.645462
- Title: Enriched BERT Embeddings for Scholarly Publication Classification
- Title(参考訳): 学術出版分類のための強化BERT埋め込み
- Authors: Benjamin Wolff, Eva Seidlmayer, Konrad U. Förstner,
- Abstract要約: NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
- 参考スコア(独自算出の注目度): 0.13654846342364302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid expansion of academic literature and the proliferation of preprints, researchers face growing challenges in manually organizing and labeling large volumes of articles. The NSLP 2024 FoRC Shared Task I addresses this challenge organized as a competition. The goal is to develop a classifier capable of predicting one of 123 predefined classes from the Open Research Knowledge Graph (ORKG) taxonomy of research fields for a given article.This paper presents our results. Initially, we enrich the dataset (containing English scholarly articles sourced from ORKG and arXiv), then leverage different pre-trained language Models (PLMs), specifically BERT, and explore their efficacy in transfer learning for this downstream task. Our experiments encompass feature-based and fine-tuned transfer learning approaches using diverse PLMs, optimized for scientific tasks, including SciBERT, SciNCL, and SPECTER2. We conduct hyperparameter tuning and investigate the impact of data augmentation from bibliographic databases such as OpenAlex, Semantic Scholar, and Crossref. Our results demonstrate that fine-tuning pre-trained models substantially enhances classification performance, with SPECTER2 emerging as the most accurate model. Moreover, enriching the dataset with additional metadata improves classification outcomes significantly, especially when integrating information from S2AG, OpenAlex and Crossref. Our best-performing approach achieves a weighted F1-score of 0.7415. Overall, our study contributes to the advancement of reliable automated systems for scholarly publication categorization, offering a potential solution to the laborious manual curation process, thereby facilitating researchers in efficiently locating relevant resources.
- Abstract(参考訳): 学術文学の急速な拡大と事前印刷の普及により、研究者は大量の論文を手作業で整理し、ラベル付けする上で、ますます難しい課題に直面している。
NSLP 2024 FoRC Shared Task Iは、コンペティションとして組織されたこの課題に対処する。
本研究の目的は,研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から,123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
当初、我々はデータセット(ORKGとarXivから派生した英語の学術論文を含む)を豊かにし、異なる事前学習言語モデル(PLM)、特にBERTを活用して、下流タスクの伝達学習におけるそれらの効果を探求した。
実験では,SciBERT,SciNCL,SPECTER2などの科学的タスクに最適化された多種多様なPLMを用いた特徴ベースおよび微調整トランスファー学習手法について検討した。
ハイパーパラメータチューニングを行い,OpenAlex,Semantic Scholar,Crossrefなどの書誌データベースからのデータ拡張の影響について検討する。
提案手法は, SPECTER2を最も精度の高いモデルとして, 微調整事前学習モデルにより分類性能が著しく向上することを示す。
さらに、S2AG、OpenAlex、Crossrefからの情報を統合する場合、データセットをメタデータを追加して強化することで、分類結果が大幅に改善される。
我々のベストパフォーマンスアプローチは、重み付きF1スコアの0.7415を達成する。
本研究は,学術論文分類における信頼性の高い自動化システムの発展に寄与し,手作業による手作業のキュレーションプロセスに対する潜在的な解決策を提供することにより,研究者が関連資源を効率的に配置できるようにする。
関連論文リスト
- Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Accelerated materials language processing enabled by GPT [5.518792725397679]
我々は材料言語処理のための生成変換器(GPT)対応パイプラインを開発した。
まず、関連する文書をスクリーニングするためのGPT対応文書分類手法を開発する。
第二に、NERタスクでは、エンティティ中心のプロンプトを設計し、そのほとんどを学習することで、パフォーマンスが改善された。
最後に,GPT対応抽出QAモデルを開発し,性能の向上とアノテーションの自動修正の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T07:31:13Z) - Good Data, Large Data, or No Data? Comparing Three Approaches in
Developing Research Aspect Classifiers for Biomedical Papers [19.1408856831043]
クラウドアノテートされたCODA-19研究アスペクト分類タスクにおいて,異なるデータセットがモデル性能に与える影響について検討した。
その結果,PubMed 200K RCTデータセットではCODA-19タスクの性能が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-07T22:56:53Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。