論文の概要: Evaluating the quality of published medical research with ChatGPT
- arxiv url: http://arxiv.org/abs/2411.01952v1
- Date: Mon, 04 Nov 2024 10:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:36.715880
- Title: Evaluating the quality of published medical research with ChatGPT
- Title(参考訳): ChatGPTを用いた出版医療研究の質評価
- Authors: Mike Thelwall, Xiaorui Jiang, Peter A. Bath,
- Abstract要約: 公表された研究の質を評価することは時間を要するが、部門評価、任命、昇進には重要である。
これまでの研究では、ChatGPTが研究品質の項目を採点できることが示されており、その結果は臨床医学以外の分野における品質の指標と正の相関がある。
この記事では、この異常を、これまでで最大のデータセットと、より詳細な分析で調査する。
- 参考スコア(独自算出の注目度): 4.786998989166
- License:
- Abstract: Evaluating the quality of published research is time-consuming but important for departmental evaluations, appointments, and promotions. Previous research has shown that ChatGPT can score articles for research quality, with the results correlating positively with an indicator of quality in all fields except Clinical Medicine. This article investigates this anomaly with the largest dataset yet and a more detailed analysis. The results showed that ChatGPT 4o-mini scores for articles submitted to the UK's Research Excellence Framework (REF) 2021 Unit of Assessment (UoA) 1 Clinical Medicine correlated positively (r=0.134, n=9872) with departmental mean REF scores, against a theoretical maximum correlation of r=0.226 (due to the departmental averaging involved). At the departmental level, mean ChatGPT scores correlated more strongly with departmental mean REF scores (r=0.395, n=31). For the 100 journals with the most articles in UoA 1, their mean ChatGPT score correlated strongly with their REF score (r=0.495) but negatively with their citation rate (r=-0.148). Journal and departmental anomalies in these results point to ChatGPT being ineffective at assessing the quality of research in prestigious medical journals or research directly affecting human health, or both. Nevertheless, the results give evidence of ChatGPT's ability to assess research quality overall for Clinical Medicine, so now there is evidence of its ability in all academic fields.
- Abstract(参考訳): 出版された研究の質を評価することは時間を要するが、部門評価、任命、昇進には重要である。
これまでの研究では、ChatGPTが研究品質の項目を採点できることが示されており、その結果は臨床医学以外の分野における品質の指標と正の相関がある。
この記事では、この異常を、これまでで最大のデータセットと、より詳細な分析で調査する。
その結果,英国のResearch Excellence Framework (REF) 2021 Unit of Assessment (UoA) 1 Clinical Medicine (r=0.134, n=9872) に提出された論文に対するChatGPT 4o-miniスコアは,r=0.226(部門平均値)の理論的最大相関と正の相関を示した。
部門レベルでは,ChatGPTスコアは,部門平均REFスコア(r=0.395,n=31)と強く相関していた。
UoA 1で最も記事が多い100の雑誌では、平均的なChatGPTスコアはREFスコア(r=0.495)と強く相関するが、引用レート(r=-0.148)と負の相関がある。
これらの結果のジャーナルおよび部門別異常は、ChatGPTが高名な医学雑誌やヒトの健康に直接影響する研究の質を評価するのに効果がないことを示唆している。
それにもかかわらず、この結果はChatGPTが総合的な臨床医学研究の質を評価する能力を示す証拠となり、現在ではすべての学術分野においてその能力が証明されている。
関連論文リスト
- Assessing the societal influence of academic research with ChatGPT: Impact case study evaluations [3.946288852327085]
本研究は,ChatGPTが社会的影響の主張を評価できるかどうかを検討する。
その結果を、公表された部門平均ICSスコアと比較する。
このアプローチにより得られたスコアは,全34単位の部門平均スコアと正の相関を示した。
論文 参考訳(メタデータ) (2024-10-25T19:51:10Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - Evaluating the Application of ChatGPT in Outpatient Triage Guidance: A Comparative Study [11.37622565068147]
医療における人工知能の統合は、運用効率と健康結果を高めるための変革的な可能性を示している。
ChatGPTのような大規模言語モデル(LLM)は、医療的意思決定をサポートする能力を示している。
本研究の目的は,ChatGPTが提示する応答の整合性を評価することである。
論文 参考訳(メタデータ) (2024-04-27T04:12:02Z) - Can ChatGPT evaluate research quality? [3.9627148816681284]
ChatGPT-4 は、REF の基準に適合する文書要約と品質評価の根拠を生成することができる。
全体として、ChatGPTは正式な研究品質評価タスクや非公式な研究品質評価タスクを信頼できるほど正確ではないようである。
論文 参考訳(メタデータ) (2024-02-08T10:00:40Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - Evaluation of ChatGPT-Generated Medical Responses: A Systematic Review
and Meta-Analysis [7.587141771901865]
ChatGPTのような大規模言語モデルは、医療領域でますます研究されている。
本研究の目的は,ChatGPTの医学的パフォーマンスを評価する上で利用可能な証拠を要約することである。
論文 参考訳(メタデータ) (2023-10-12T15:26:26Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。
その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - ITTC @ TREC 2021 Clinical Trials Track [54.141379782822206]
本課題は、患者の入院ノートの要約を構成するトピックに有効な臨床試験を適合させる問題に焦点を当てる。
NLP手法を用いて試行とトピックの表現方法を探索し、共通の検索モデルを用いて各トピックに関連するトライアルのランク付けリストを生成する。
提案されたすべての実行の結果は、すべてのトピックの中央値よりもはるかに上回っていますが、改善の余地はたくさんあります。
論文 参考訳(メタデータ) (2022-02-16T04:56:47Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。