論文の概要: Evaluating the Predictive Capacity of ChatGPT for Academic Peer Review Outcomes Across Multiple Platforms
- arxiv url: http://arxiv.org/abs/2411.09763v1
- Date: Thu, 14 Nov 2024 19:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:37:48.589405
- Title: Evaluating the Predictive Capacity of ChatGPT for Academic Peer Review Outcomes Across Multiple Platforms
- Title(参考訳): 複数のプラットフォームを対象とした学術的ピアレビューにおけるChatGPTの予測能力の評価
- Authors: Mike Thelwall, Abdullah Yaghi,
- Abstract要約: 本稿では2つの新しい文脈を導入し、より堅牢な方法である複数のChatGPTスコアを平均化する。
平均的な30のChatGPT予測は、レビュアーガイドラインに基づいて、提出されたタイトルと要約のみを用いて、F1000Researchのピアレビュー結果の予測に失敗した。
- 参考スコア(独自算出の注目度): 3.3543455244780223
- License:
- Abstract: While previous studies have demonstrated that Large Language Models (LLMs) can predict peer review outcomes to some extent, this paper builds on that by introducing two new contexts and employing a more robust method - averaging multiple ChatGPT scores. The findings that averaging 30 ChatGPT predictions, based on reviewer guidelines and using only the submitted titles and abstracts, failed to predict peer review outcomes for F1000Research (Spearman's rho=0.00). However, it produced mostly weak positive correlations with the quality dimensions of SciPost Physics (rho=0.25 for validity, rho=0.25 for originality, rho=0.20 for significance, and rho = 0.08 for clarity) and a moderate positive correlation for papers from the International Conference on Learning Representations (ICLR) (rho=0.38). Including the full text of articles significantly increased the correlation for ICLR (rho=0.46) and slightly improved it for F1000Research (rho=0.09), while it had variable effects on the four quality dimension correlations for SciPost LaTeX files. The use of chain-of-thought system prompts slightly increased the correlation for F1000Research (rho=0.10), marginally reduced it for ICLR (rho=0.37), and further decreased it for SciPost Physics (rho=0.16 for validity, rho=0.18 for originality, rho=0.18 for significance, and rho=0.05 for clarity). Overall, the results suggest that in some contexts, ChatGPT can produce weak pre-publication quality assessments. However, the effectiveness of these assessments and the optimal strategies for employing them vary considerably across different platforms, journals, and conferences. Additionally, the most suitable inputs for ChatGPT appear to differ depending on the platform.
- Abstract(参考訳): これまでの研究では、Large Language Models (LLMs) はピアレビューの結果をある程度予測できることを示したが、この論文は2つの新しいコンテキストを導入し、より堅牢な方法である複数のChatGPTスコアを平均化することによって、それを裏付けるものである。
F1000Research (Spearman's rho=0.00) において、平均30のChatGPT予測がレビュアーガイドラインに基づいて提案されたタイトルと要約のみを用いているという調査結果は、ピアレビュー結果の予測に失敗した。
しかし、SciPost Physicsの品質次元(妥当性はrho=0.25、独創性はrho=0.25、明度はrho=0.20、明度はrho = 0.08)と、国際学習表現会議(ICLR)の論文に対する中程度の正の相関を生んだ(rho=0.38)。
記事の全文を含めると、ICLR(rho=0.46)の相関は著しく増加し、F1000Research(rho=0.09)ではわずかに改善されたが、SciPost LaTeXファイルの4つの品質次元の相関には変化があった。
F1000Research(rho=0.10)の相関をわずかに増加させ(rho=0.37)、SciPost Physics(rho=0.16、rho=0.18、Rho=0.18、rho=0.05)の相関を小さくする。
全体としては、ChatGPTはいくつかの文脈において、公開前の品質評価が弱いことを示唆している。
しかし、これらの評価の有効性とそれを利用するための最適な戦略は、様々なプラットフォーム、雑誌、会議によって大きく異なる。
さらに、ChatGPTの最も適切な入力はプラットフォームによって異なるように見える。
関連論文リスト
- Evaluating the quality of published medical research with ChatGPT [4.786998989166]
公表された研究の質を評価することは時間を要するが、部門評価、任命、昇進には重要である。
これまでの研究では、ChatGPTが研究品質の項目を採点できることが示されており、その結果は臨床医学以外の分野における品質の指標と正の相関がある。
この記事では、この異常を、これまでで最大のデータセットと、より詳細な分析で調査する。
論文 参考訳(メタデータ) (2024-11-04T10:24:36Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - Can ChatGPT evaluate research quality? [3.9627148816681284]
ChatGPT-4 は、REF の基準に適合する文書要約と品質評価の根拠を生成することができる。
全体として、ChatGPTは正式な研究品質評価タスクや非公式な研究品質評価タスクを信頼できるほど正確ではないようである。
論文 参考訳(メタデータ) (2024-02-08T10:00:40Z) - Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文 参考訳(メタデータ) (2023-11-14T14:56:33Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Shall We Pretrain Autoregressive Language Models with Retrieval? A
Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。
本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文 参考訳(メタデータ) (2023-04-13T18:04:19Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Out-of-Vocabulary Entities in Link Prediction [1.9036571490366496]
リンク予測はしばしば、埋め込みの品質を評価するプロキシとして使用される。
ベンチマークはアルゴリズムの公正な比較に欠かせないため、より良いソリューションを開発するための確固たる基盤を提供するため、その品質が確実に確保される。
我々は、そのようなエンティティの発見と削除のためのアプローチの実装を提供し、データセットWN18RR、FB15K-237、YAGO3-10の修正版を提供する。
論文 参考訳(メタデータ) (2021-05-26T12:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。