Fugu-MT 論文翻訳(概要): Evaluating the quality of published medical research with ChatGPT

論文の概要: Evaluating the quality of published medical research with ChatGPT

arxiv url: http://arxiv.org/abs/2411.01952v1
Date: Mon, 04 Nov 2024 10:24:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.019351
Title: Evaluating the quality of published medical research with ChatGPT
Title（参考訳）: ChatGPTを用いた出版医療研究の質評価
Authors: Mike Thelwall, Xiaorui Jiang, Peter A. Bath,
Abstract要約: 公表された研究の質を評価することは時間を要するが、部門評価、任命、昇進には重要である。これまでの研究では、ChatGPTが研究品質の項目を採点できることが示されており、その結果は臨床医学以外の分野における品質の指標と正の相関がある。この記事では、この異常を、これまでで最大のデータセットと、より詳細な分析で調査する。
参考スコア（独自算出の注目度）: 4.786998989166
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating the quality of published research is time-consuming but important for departmental evaluations, appointments, and promotions. Previous research has shown that ChatGPT can score articles for research quality, with the results correlating positively with an indicator of quality in all fields except Clinical Medicine. This article investigates this anomaly with the largest dataset yet and a more detailed analysis. The results showed that ChatGPT 4o-mini scores for articles submitted to the UK's Research Excellence Framework (REF) 2021 Unit of Assessment (UoA) 1 Clinical Medicine correlated positively (r=0.134, n=9872) with departmental mean REF scores, against a theoretical maximum correlation of r=0.226 (due to the departmental averaging involved). At the departmental level, mean ChatGPT scores correlated more strongly with departmental mean REF scores (r=0.395, n=31). For the 100 journals with the most articles in UoA 1, their mean ChatGPT score correlated strongly with their REF score (r=0.495) but negatively with their citation rate (r=-0.148). Journal and departmental anomalies in these results point to ChatGPT being ineffective at assessing the quality of research in prestigious medical journals or research directly affecting human health, or both. Nevertheless, the results give evidence of ChatGPT's ability to assess research quality overall for Clinical Medicine, so now there is evidence of its ability in all academic fields.
Abstract（参考訳）: 出版された研究の質を評価することは時間を要するが、部門評価、任命、昇進には重要である。これまでの研究では、ChatGPTが研究品質の項目を採点できることが示されており、その結果は臨床医学以外の分野における品質の指標と正の相関がある。この記事では、この異常を、これまでで最大のデータセットと、より詳細な分析で調査する。その結果,英国のResearch Excellence Framework (REF) 2021 Unit of Assessment (UoA) 1 Clinical Medicine (r=0.134, n=9872) に提出された論文に対するChatGPT 4o-miniスコアは,r=0.226(部門平均値)の理論的最大相関と正の相関を示した。部門レベルでは,ChatGPTスコアは,部門平均REFスコア(r=0.395,n=31)と強く相関していた。 UoA 1で最も記事が多い100の雑誌では、平均的なChatGPTスコアはREFスコア(r=0.495)と強く相関するが、引用レート(r=-0.148)と負の相関がある。これらの結果のジャーナルおよび部門別異常は、ChatGPTが高名な医学雑誌やヒトの健康に直接影響する研究の質を評価するのに効果がないことを示唆している。それにもかかわらず、この結果はChatGPTが総合的な臨床医学研究の質を評価する能力を示す証拠となり、現在ではすべての学術分野においてその能力が証明されている。

関連論文リスト

MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。 MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-05-26T22:55:49Z)
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。 CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。 3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文参考訳（メタデータ） (2025-03-11T17:59:00Z)
Evaluating the Predictive Capacity of ChatGPT for Academic Peer Review Outcomes Across Multiple Platforms [3.3543455244780223]
本稿では2つの新しい文脈を導入し、より堅牢な方法である複数のChatGPTスコアを平均化する。平均的な30のChatGPT予測は、レビュアーガイドラインに基づいて、提出されたタイトルと要約のみを用いて、F1000Researchのピアレビュー結果の予測に失敗した。
論文参考訳（メタデータ） (2024-11-14T19:20:33Z)
Assessing the societal influence of academic research with ChatGPT: Impact case study evaluations [3.946288852327085]
本研究は,ChatGPTが社会的影響の主張を評価できるかどうかを検討する。その結果を、公表された部門平均ICSスコアと比較する。このアプローチにより得られたスコアは,全34単位の部門平均スコアと正の相関を示した。
論文参考訳（メタデータ） (2024-10-25T19:51:10Z)
Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文参考訳（メタデータ） (2024-08-13T09:19:21Z)
Can ChatGPT evaluate research quality? [3.9627148816681284]
ChatGPT-4 は、REF の基準に適合する文書要約と品質評価の根拠を生成することができる。全体として、ChatGPTは正式な研究品質評価タスクや非公式な研究品質評価タスクを信頼できるほど正確ではないようである。
論文参考訳（メタデータ） (2024-02-08T10:00:40Z)
A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文参考訳（メタデータ） (2023-10-30T11:13:40Z)
Evaluation of ChatGPT-Generated Medical Responses: A Systematic Review and Meta-Analysis [7.587141771901865]
ChatGPTのような大規模言語モデルは、医療領域でますます研究されている。本研究の目的は,ChatGPTの医学的パフォーマンスを評価する上で利用可能な証拠を要約することである。
論文参考訳（メタデータ） (2023-10-12T15:26:26Z)
Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文参考訳（メタデータ） (2023-08-03T12:47:17Z)
To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文参考訳（メタデータ） (2023-04-04T03:04:28Z)
Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文参考訳（メタデータ） (2023-03-07T16:57:20Z)
On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。 ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文参考訳（メタデータ） (2023-02-22T11:01:20Z)
Consultation Checklists: Standardising the Human Evaluation of Medical Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文参考訳（メタデータ） (2022-11-17T10:54:28Z)
ITTC @ TREC 2021 Clinical Trials Track [54.141379782822206]
本課題は、患者の入院ノートの要約を構成するトピックに有効な臨床試験を適合させる問題に焦点を当てる。 NLP手法を用いて試行とトピックの表現方法を探索し、共通の検索モデルを用いて各トピックに関連するトライアルのランク付けリストを生成する。提案されたすべての実行の結果は、すべてのトピックの中央値よりもはるかに上回っていますが、改善の余地はたくさんあります。
論文参考訳（メタデータ） (2022-02-16T04:56:47Z)
Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-02T19:41:47Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。