論文の概要: Can ChatGPT evaluate research quality?
- arxiv url: http://arxiv.org/abs/2402.05519v1
- Date: Thu, 8 Feb 2024 10:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:55:51.975873
- Title: Can ChatGPT evaluate research quality?
- Title(参考訳): ChatGPTは研究品質を評価することができるか?
- Authors: Mike Thelwall
- Abstract要約: ChatGPT-4 は、REF の基準に適合する文書要約と品質評価の根拠を生成することができる。
全体として、ChatGPTは正式な研究品質評価タスクや非公式な研究品質評価タスクを信頼できるほど正確ではないようである。
- 参考スコア(独自算出の注目度): 3.9627148816681284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Purpose: Assess whether ChatGPT 4.0 is accurate enough to perform research
evaluations on journal articles to automate this time-consuming task.
Design/methodology/approach: Test the extent to which ChatGPT-4 can assess the
quality of journal articles using a case study of the published scoring
guidelines of the UK Research Excellence Framework (REF) 2021 to create a
research evaluation ChatGPT. This was applied to 51 of my own articles and
compared against my own quality judgements. Findings: ChatGPT-4 can produce
plausible document summaries and quality evaluation rationales that match the
REF criteria. Its overall scores have weak correlations with my self-evaluation
scores of the same documents (averaging r=0.281 over 15 iterations, with 8
being statistically significantly different from 0). In contrast, the average
scores from the 15 iterations produced a statistically significant positive
correlation of 0.509. Thus, averaging scores from multiple ChatGPT-4 rounds
seems more effective than individual scores. The positive correlation may be
due to ChatGPT being able to extract the author's significance, rigour, and
originality claims from inside each paper. If my weakest articles are removed,
then the correlation with average scores (r=0.200) falls below statistical
significance, suggesting that ChatGPT struggles to make fine-grained
evaluations. Research limitations: The data is self-evaluations of a
convenience sample of articles from one academic in one field. Practical
implications: Overall, ChatGPT does not yet seem to be accurate enough to be
trusted for any formal or informal research quality evaluation tasks. Research
evaluators, including journal editors, should therefore take steps to control
its use. Originality/value: This is the first published attempt at
post-publication expert review accuracy testing for ChatGPT.
- Abstract(参考訳): 目的:ChatGPT 4.0がこの時間的作業を自動化するためにジャーナル記事の研究評価を行うのに十分であるかどうかを評価する。
設計・方法論・アプローチ:2021年に公開された英国研究卓越フレームワーク(REF)のスコアリングガイドラインのケーススタディを用いて、ChatGPT-4がジャーナル記事の品質を評価することができる範囲をテストする。
これは私の51の記事に適用され、私の品質判断と比較されました。
発見: ChatGPT-4 は、REF 基準に適合する、もっともらしい文書要約と品質評価の根拠を生成することができる。
全体のスコアは、同じ文書の自己評価スコアと弱い相関がある(r=0.281を15回繰り返し、統計学的に0と大きく異なる)。
一方、15回の平均スコアは0.509の統計的に有意な正の相関を示した。
したがって、複数のchatgpt-4ラウンドからの平均スコアは個々のスコアよりも効果的である。
正の相関関係は、chatgptが各論文から著者の意義、厳密さ、独創性を引き出すことができるためかもしれない。
私の最も弱い記事が削除された場合、平均スコア(r=0.200)との相関は統計的に重要視される。
研究の限界:データは、ある学術分野の論文の便利なサンプルの自己評価である。
実践的意味: 全体としては、chatgptは形式的あるいは非公式な研究品質評価タスクで信頼できるほど正確ではないように思われる。
したがって、ジャーナルエディタを含む研究評価者は、その使用を制御するためのステップを踏むべきである。
Originality/value: ChatGPTのレビューレビュー精度テストの公開後最初の試みである。
関連論文リスト
- Evaluating the Predictive Capacity of ChatGPT for Academic Peer Review Outcomes Across Multiple Platforms [3.3543455244780223]
本稿では2つの新しい文脈を導入し、より堅牢な方法である複数のChatGPTスコアを平均化する。
平均的な30のChatGPT予測は、レビュアーガイドラインに基づいて、提出されたタイトルと要約のみを用いて、F1000Researchのピアレビュー結果の予測に失敗した。
論文 参考訳(メタデータ) (2024-11-14T19:20:33Z) - Evaluating the quality of published medical research with ChatGPT [4.786998989166]
公表された研究の質を評価することは時間を要するが、部門評価、任命、昇進には重要である。
これまでの研究では、ChatGPTが研究品質の項目を採点できることが示されており、その結果は臨床医学以外の分野における品質の指標と正の相関がある。
この記事では、この異常を、これまでで最大のデータセットと、より詳細な分析で調査する。
論文 参考訳(メタデータ) (2024-11-04T10:24:36Z) - Assessing the societal influence of academic research with ChatGPT: Impact case study evaluations [3.946288852327085]
本研究は,ChatGPTが社会的影響の主張を評価できるかどうかを検討する。
その結果を、公表された部門平均ICSスコアと比較する。
このアプローチにより得られたスコアは,全34単位の部門平均スコアと正の相関を示した。
論文 参考訳(メタデータ) (2024-10-25T19:51:10Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。