論文の概要: Predicting article quality scores with machine learning: The UK Research
Excellence Framework
- arxiv url: http://arxiv.org/abs/2212.05415v1
- Date: Sun, 11 Dec 2022 05:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:40:56.137692
- Title: Predicting article quality scores with machine learning: The UK Research
Excellence Framework
- Title(参考訳): 機械学習による記事品質スコアの予測 - uk research excellence framework
- Authors: Mike Thelwall, Kayvan Kousha, Mahshid Abdoli, Emma Stuart, Meiko
Makita, Paul Wilson, Jonathan Levitt, Petr Knoth, Matteo Cancellieri
- Abstract要約: 正確性は、医学・物理科学ユニット・オブ・アセスメント(UoAs)と経済学で最も高い。
社会科学、数学、工学、芸術、人文科学、そしてUoAsの基準の上の予測精度は、より低いかゼロに近いものであった。
提案手法は,能動的学習戦略による精度の向上と,予測確率の高い記事の選択により,アルゴリズムによって推定される結果の予測回数を大幅に削減する。
- 参考スコア(独自算出の注目度): 6.582887504429817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: National research evaluation initiatives and incentive schemes have
previously chosen between simplistic quantitative indicators and time-consuming
peer review, sometimes supported by bibliometrics. Here we assess whether
artificial intelligence (AI) could provide a third alternative, estimating
article quality using more multiple bibliometric and metadata inputs. We
investigated this using provisional three-level REF2021 peer review scores for
84,966 articles submitted to the UK Research Excellence Framework 2021,
matching a Scopus record 2014-18 and with a substantial abstract. We found that
accuracy is highest in the medical and physical sciences Units of Assessment
(UoAs) and economics, reaching 42% above the baseline (72% overall) in the best
case. This is based on 1000 bibliometric inputs and half of the articles used
for training in each UoA. Prediction accuracies above the baseline for the
social science, mathematics, engineering, arts, and humanities UoAs were much
lower or close to zero. The Random Forest Classifier (standard or ordinal) and
Extreme Gradient Boosting Classifier algorithms performed best from the 32
tested. Accuracy was lower if UoAs were merged or replaced by Scopus broad
categories. We increased accuracy with an active learning strategy and by
selecting articles with higher prediction probabilities, as estimated by the
algorithms, but this substantially reduced the number of scores predicted.
- Abstract(参考訳): 国家研究評価イニシアチブとインセンティブ・スキームは、以前は単純な量的指標と時間消費ピアレビューの間で選択されてきた。
ここでは,人工知能(AI)が,より複数の文献およびメタデータ入力を用いて記事の品質を推定する第3の代替手段を提供するか否かを評価する。
英リサーチ・エクセレンス・フレームワーク2021に提出された84,966件の論文に対して,暫定3段階のref2021ピアレビュースコアを用いてこれを検討した。
uoas(medical and physical sciences unit of assessment)とエコノミクスでは、精度が最も高く、最良のケースではベースライン(全体の72%)を42%上回っています。
これは、各UoAでのトレーニングに使用する1000の文献入力と記事の半分に基づいている。
社会科学、数学、工学、芸術、人文科学の基準の上の予測精度は、UoAsの方がはるかに低く、ゼロに近いものであった。
ランダム・フォレスト分類器(標準または順序)と極勾配ブースティング分類器アルゴリズムは、試験された32項目中最もよく実行された。
UoAsが合併またはスコパス・ワイド・カテゴリに置き換えられた場合、精度は低下した。
提案手法は,能動的学習戦略による精度の向上と,予測確率の高い記事の選択により,アルゴリズムによる推定値が大幅に減少した。
関連論文リスト
- New Directions in Text Classification Research: Maximizing The Performance of Sentiment Classification from Limited Data [0.0]
ベンチマークデータセットは、Kaesang Pangarep氏がPSIの議長として任命した問題に関するデータをトレーニングし、テストするためのものだ。
公式スコアはF1スコアであり、正、負、中立の3つのクラスで精度とリコールのバランスをとる。
スコアリング(ベースラインと最適化)はどちらもSVMメソッドを使用し、従来の機械学習手法では最先端と広く報告されている。
論文 参考訳(メタデータ) (2024-07-08T05:42:29Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Out-of-Vocabulary Entities in Link Prediction [1.9036571490366496]
リンク予測はしばしば、埋め込みの品質を評価するプロキシとして使用される。
ベンチマークはアルゴリズムの公正な比較に欠かせないため、より良いソリューションを開発するための確固たる基盤を提供するため、その品質が確実に確保される。
我々は、そのようなエンティティの発見と削除のためのアプローチの実装を提供し、データセットWN18RR、FB15K-237、YAGO3-10の修正版を提供する。
論文 参考訳(メタデータ) (2021-05-26T12:58:18Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。