論文の概要: Evaluating the quality of published medical research with ChatGPT
- arxiv url: http://arxiv.org/abs/2411.01952v2
- Date: Mon, 03 Mar 2025 15:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 15:10:32.114770
- Title: Evaluating the quality of published medical research with ChatGPT
- Title(参考訳): ChatGPTを用いた出版医療研究の質評価
- Authors: Mike Thelwall, Xiaorui Jiang, Peter A. Bath,
- Abstract要約: これまでの研究では、ChatGPTが研究論文の質を推定できることが示されている。
本稿では,これまでで最大のデータセットを用いた臨床医学異常について検討する。
- 参考スコア(独自算出の注目度): 4.786998989166
- License:
- Abstract: Estimating the quality of published research is important for evaluations of departments, researchers, and job candidates. Citation-based indicators sometimes support these tasks, but do not work for new articles and have low or moderate accuracy. Previous research has shown that ChatGPT can estimate the quality of research articles, with its scores correlating positively with an expert scores proxy in all fields, and often more strongly than citation-based indicators, except for clinical medicine. ChatGPT scores may therefore replace citation-based indicators for some applications. This article investigates the clinical medicine anomaly with the largest dataset yet and a more detailed analysis. The results showed that ChatGPT 4o-mini scores for articles submitted to the UK's Research Excellence Framework (REF) 2021 Unit of Assessment (UoA) 1 Clinical Medicine correlated positively (r=0.134, n=9872) with departmental mean REF scores, against a theoretical maximum correlation of r=0.226. ChatGPT 4o and 3.5 turbo also gave positive correlations. At the departmental level, mean ChatGPT scores correlated more strongly with departmental mean REF scores (r=0.395, n=31). For the 100 journals with the most articles in UoA 1, their mean ChatGPT score correlated strongly with their REF score (r=0.495) but negatively with their citation rate (r=-0.148). Journal and departmental anomalies in these results point to ChatGPT being ineffective at assessing the quality of research in prestigious medical journals or research directly affecting human health, or both. Nevertheless, the results give evidence of ChatGPT's ability to assess research quality overall for Clinical Medicine, where it might replace citation-based indicators for new research.
- Abstract(参考訳): 出版された研究の質を評価することは、部門、研究者、求職者の評価にとって重要である。
引用に基づく指標は、時にこれらのタスクをサポートするが、新しい記事のためには機能せず、低または適度な精度を持つ。
これまでの研究では、ChatGPTは研究論文の質を推定でき、そのスコアはすべての分野の専門家スコアプロキシと正の相関を持ち、臨床医学以外の引用に基づく指標よりも強いことが示されている。
したがって、ChatGPTスコアは、一部のアプリケーションで引用に基づく指標を置き換えることができる。
本稿では,これまでで最大のデータセットで臨床医学異常を調査し,より詳細な分析を行う。
その結果,英国のResearch Excellence Framework (REF) 2021 Unit of Assessment (UoA) 1 Clinical Medicine (r=0.134, n=9872) に提出された記事に対するChatGPT 4o-miniスコアは,r=0.226の理論的最大相関に対して正の相関(r=0.134, n=9872)を示した。
ChatGPT 4oと3.5ターボも正の相関を示した。
部門レベルでは,ChatGPTスコアは,部門平均REFスコア(r=0.395,n=31)と強く相関していた。
UoA 1で最も記事が多い100の雑誌では、平均的なChatGPTスコアはREFスコア(r=0.495)と強く相関するが、引用レート(r=-0.148)と負の相関がある。
これらの結果のジャーナルおよび部門別異常は、ChatGPTが高名な医学雑誌やヒトの健康に直接影響を及ぼす研究の質を評価するのに効果がないことを示唆している。
それにもかかわらず、この結果は、ChatGPTが、新しい研究のための引用に基づく指標を置き換える、総合的な研究品質を評価する能力を証明している。
関連論文リスト
- Evaluating the Predictive Capacity of ChatGPT for Academic Peer Review Outcomes Across Multiple Platforms [3.3543455244780223]
本稿では2つの新しい文脈を導入し、より堅牢な方法である複数のChatGPTスコアを平均化する。
平均的な30のChatGPT予測は、レビュアーガイドラインに基づいて、提出されたタイトルと要約のみを用いて、F1000Researchのピアレビュー結果の予測に失敗した。
論文 参考訳(メタデータ) (2024-11-14T19:20:33Z) - Assessing the societal influence of academic research with ChatGPT: Impact case study evaluations [3.946288852327085]
本研究は,ChatGPTが社会的影響の主張を評価できるかどうかを検討する。
その結果を、公表された部門平均ICSスコアと比較する。
このアプローチにより得られたスコアは,全34単位の部門平均スコアと正の相関を示した。
論文 参考訳(メタデータ) (2024-10-25T19:51:10Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - Can ChatGPT evaluate research quality? [3.9627148816681284]
ChatGPT-4 は、REF の基準に適合する文書要約と品質評価の根拠を生成することができる。
全体として、ChatGPTは正式な研究品質評価タスクや非公式な研究品質評価タスクを信頼できるほど正確ではないようである。
論文 参考訳(メタデータ) (2024-02-08T10:00:40Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - Evaluation of ChatGPT-Generated Medical Responses: A Systematic Review
and Meta-Analysis [7.587141771901865]
ChatGPTのような大規模言語モデルは、医療領域でますます研究されている。
本研究の目的は,ChatGPTの医学的パフォーマンスを評価する上で利用可能な証拠を要約することである。
論文 参考訳(メタデータ) (2023-10-12T15:26:26Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。
その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - ITTC @ TREC 2021 Clinical Trials Track [54.141379782822206]
本課題は、患者の入院ノートの要約を構成するトピックに有効な臨床試験を適合させる問題に焦点を当てる。
NLP手法を用いて試行とトピックの表現方法を探索し、共通の検索モデルを用いて各トピックに関連するトライアルのランク付けリストを生成する。
提案されたすべての実行の結果は、すべてのトピックの中央値よりもはるかに上回っていますが、改善の余地はたくさんあります。
論文 参考訳(メタデータ) (2022-02-16T04:56:47Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。