論文の概要: Using Transformer based Ensemble Learning to classify Scientific
Articles
- arxiv url: http://arxiv.org/abs/2102.09991v1
- Date: Fri, 19 Feb 2021 15:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:28:57.809783
- Title: Using Transformer based Ensemble Learning to classify Scientific
Articles
- Title(参考訳): トランスフォーマーを用いたエンサンブル学習による科学論文の分類
- Authors: Sohom Ghosh and Ankush Chopra
- Abstract要約: 科学文献の抽象物を与えられた7つのクラスのうちの1つに分類できる4つの独立したサブシステムから構成される。
これら4つのサブシステムの予測を多数決を用いてアンサンブルし、テストと検証セットでF1スコアが0.93となる最終システムを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many time reviewers fail to appreciate novel ideas of a researcher and
provide generic feedback. Thus, proper assignment of reviewers based on their
area of expertise is necessary. Moreover, reading each and every paper from
end-to-end for assigning it to a reviewer is a tedious task. In this paper, we
describe a system which our team FideLIPI submitted in the shared task of
SDPRA-2021 [14]. It comprises four independent sub-systems capable of
classifying abstracts of scientific literature to one of the given seven
classes. The first one is a RoBERTa [10] based model built over these
abstracts. Adding topic models / Latent dirichlet allocation (LDA) [2] based
features to the first model results in the second sub-system. The third one is
a sentence level RoBERTa [10] model. The fourth one is a Logistic Regression
model built using Term Frequency Inverse Document Frequency (TF-IDF) features.
We ensemble predictions of these four sub-systems using majority voting to
develop the final system which gives a F1 score of 0.93 on the test and
validation set. This outperforms the existing State Of The Art (SOTA) model
SciBERT's [1] in terms of F1 score on the validation set.Our codebase is
available at https://github.com/SDPRA-2021/shared-task/tree/main/FideLIPI
- Abstract(参考訳): 多くのタイムレビュアーは、研究者の斬新なアイデアを評価できず、一般的なフィードバックを提供する。
したがって、専門分野に基づいたレビュアーの適切な割り当てが必要です。
さらに、それをレビュアーに割り当てるためにエンドツーエンドから各論文を読むことは面倒な作業です。
本稿では、FideLIPIチームがSDPRA-2021 [14]の共有タスクで提出したシステムについて説明します。
科学文献の抽象物を与えられた7つのクラスのうちの1つに分類できる4つの独立したサブシステムから構成される。
最初のものは、これらの抽象の上に構築されたRoBERTa [10]ベースのモデルです。
トピックモデル/遅延ディリクレアロケーション(LDA)[2]ベースの機能を第1モデルに追加すると、第2サブシステムが生成される。
3つ目は文レベルのRoBERTa [10]モデルです。
4つめは、項周波数逆文書頻度(tf-idf)機能を用いたロジスティック回帰モデルである。
これら4つのサブシステムの予測を多数決を用いてアンサンブルし、テストと検証セットでF1スコアが0.93となる最終システムを開発する。
これは、検証セット上のF1スコアの点で、既存のState of The Art(SOTA)モデルSciBERTの[1]を上回り、私たちのコードベースはhttps://github.com/SDPRA-2021/shared-task/tree/main/FideLIPIで利用可能です。
関連論文リスト
- News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Detecting Generated Scientific Papers using an Ensemble of Transformer
Models [4.56877715768796]
DAGPap22共有タスクのために開発されたニューラルモデルについて,Scholarly Document Processingの第3ワークショップで紹介した。
我々の研究は、異なるトランスフォーマーベースのモデルの比較と、不均衡なクラスを扱うために追加のデータセットとテクニックの使用に焦点を当てている。
論文 参考訳(メタデータ) (2022-09-17T08:43:25Z) - Using contextual sentence analysis models to recognize ESG concepts [8.905370601886112]
本稿では,ラ・ロシェル大学のTrading Central LabsとL3i研究所のFinSim-4評価キャンペーンの2つのサブタスクへの参加について要約する。
第1のサブタスクは「Fortia ESG分類」を新しい辞書エントリで強化することを目的としており、第2のタスクは、ESGに関連する要因に関して文を「持続可能」または「持続不可能」に分類することを目的としている。
論文 参考訳(メタデータ) (2022-07-04T13:33:21Z) - SimCPSR: Simple Contrastive Learning for Paper Submission Recommendation
System [0.0]
本研究では,論文提出推薦システムの効率的な手法としてトランスファーラーニングを用いたトランスフォーマーモデルを提案する。
本質的な情報(タイトル、要約、キーワードのリストなど)をジャーナルの目的とスコープと組み合わせることで、このモデルは論文の受容を最大化するトップK誌を推薦することができる。
論文 参考訳(メタデータ) (2022-05-12T08:08:22Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Joint Models for Answer Verification in Question Answering Systems [85.93456768689404]
我々は3方向のマルチクラス化器を構築し、解答が他の解答をサポートするか、反証するか、あるいは中立かを決定する。
私たちは、WikiQA、TREC-QA、実世界のデータセットでモデルをテストしました。
論文 参考訳(メタデータ) (2021-07-09T05:34:36Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - UIUC_BioNLP at SemEval-2021 Task 11: A Cascade of Neural Models for
Structuring Scholarly NLP Contributions [1.5942130010323128]
本稿では,文分類,文認識,三重抽出を行うニューラルネットワークのカスケードを提案する。
BERT-CRFモデルを用いて、コントリビューション文中の関連するフレーズを認識し、特徴付ける。
本システムは第1相評価では第2位,第2相評価では両部で第1位であった。
論文 参考訳(メタデータ) (2021-05-12T05:24:35Z) - KnowGraph@IITK at SemEval-2021 Task 11: Building KnowledgeGraph for NLP
Research [2.1012672709024294]
自然言語処理文献を用いた研究論文貢献型知識グラフ作成システムを開発する。
提案システムは対象領域に依存せず,任意の領域の知識グラフ構築に利用することができる。
終末パイプラインテスト,句抽出テスト,三重項抽出テストでは,F1スコアが0.38,0.63,0.76となった。
論文 参考訳(メタデータ) (2021-04-04T14:33:21Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。