論文の概要: Assessing the societal influence of academic research with ChatGPT: Impact case study evaluations
- arxiv url: http://arxiv.org/abs/2410.19948v1
- Date: Fri, 25 Oct 2024 19:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:37.999551
- Title: Assessing the societal influence of academic research with ChatGPT: Impact case study evaluations
- Title(参考訳): ChatGPTを用いた学術研究の社会的影響評価 : インパクトケーススタディの評価
- Authors: Kayvan Kousha, Mike Thelwall,
- Abstract要約: 本研究は,ChatGPTが社会的影響の主張を評価できるかどうかを検討する。
その結果を、公表された部門平均ICSスコアと比較する。
このアプローチにより得られたスコアは,全34単位の部門平均スコアと正の相関を示した。
- 参考スコア(独自算出の注目度): 3.946288852327085
- License:
- Abstract: Academics and departments are sometimes judged by how their research has benefitted society. For example, the UK Research Excellence Framework (REF) assesses Impact Case Studies (ICS), which are five-page evidence-based claims of societal impacts. This study investigates whether ChatGPT can evaluate societal impact claims and therefore potentially support expert human assessors. For this, various parts of 6,220 public ICS from REF2021 were fed to ChatGPT 4o-mini along with the REF2021 evaluation guidelines, comparing the results with published departmental average ICS scores. The results suggest that the optimal strategy for high correlations with expert scores is to input the title and summary of an ICS but not the remaining text, and to modify the original REF guidelines to encourage a stricter evaluation. The scores generated by this approach correlated positively with departmental average scores in all 34 Units of Assessment (UoAs), with values between 0.18 (Economics and Econometrics) and 0.56 (Psychology, Psychiatry and Neuroscience). At the departmental level, the corresponding correlations were higher, reaching 0.71 for Sport and Exercise Sciences, Leisure and Tourism. Thus, ChatGPT-based ICS evaluations are simple and viable to support or cross-check expert judgments, although their value varies substantially between fields.
- Abstract(参考訳): 学者や学部は、彼らの研究が社会にどのような恩恵を与えたかによって判断されることがある。
例えば、英国のResearch Excellence Framework (REF)は、5ページのエビデンスに基づく社会的影響の主張であるImpact Case Studies (ICS)を評価している。
本研究では,ChatGPTが社会的影響の主張を評価できるかどうかを検討した。
このため、REF2021の公開ICS6,220の様々な部分をChatGPT 4o-miniに供給し、REF2021の評価ガイドラインを公表した部門平均ICSスコアと比較した。
その結果,ICSのタイトルと要約を入力し,元のREFガイドラインを変更し,より厳密な評価を促すことが,専門家のスコアと高い相関性を示す最適戦略であることを示唆した。
このアプローチによって得られたスコアは、すべての34単位(UoAs)の部門平均スコアと正の相関を示し、その値は0.18(経済・経済)と0.56(心理学・精神医学・神経科学)であった。
部門レベルでの相関関係は高く、スポーツ・エクササイズ科学・レジャー・ツーリズムで0.71に達した。
このように、ChatGPTに基づくICS評価は、分野によって大きく異なるが、専門家の判断を支持したり、クロスチェックしたりすることは簡単で可能である。
関連論文リスト
- Evaluating the quality of published medical research with ChatGPT [4.786998989166]
公表された研究の質を評価することは時間を要するが、部門評価、任命、昇進には重要である。
これまでの研究では、ChatGPTが研究品質の項目を採点できることが示されており、その結果は臨床医学以外の分野における品質の指標と正の相関がある。
この記事では、この異常を、これまでで最大のデータセットと、より詳細な分析で調査する。
論文 参考訳(メタデータ) (2024-11-04T10:24:36Z) - Analysis of the ICML 2023 Ranking Data: Can Authors' Opinions of Their Own Papers Assist Peer Review in Machine Learning? [52.00419656272129]
我々は2023年の国際機械学習会議(ICML)で実験を行った。
我々はそれぞれ2,592件の応募書を含む1,342件のランク付けを受けた。
著者によるランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - Can ChatGPT evaluate research quality? [3.9627148816681284]
ChatGPT-4 は、REF の基準に適合する文書要約と品質評価の根拠を生成することができる。
全体として、ChatGPTは正式な研究品質評価タスクや非公式な研究品質評価タスクを信頼できるほど正確ではないようである。
論文 参考訳(メタデータ) (2024-02-08T10:00:40Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - RuSentNE-2023: Evaluating Entity-Oriented Sentiment Analysis on Russian
News Texts [0.0]
本稿では,ロシアのニューステキストにおける感情分析を目的としたRuSentNE-2023の評価について述べる。
RuSentNE-2023の評価データセットは、リッチな感情関連アノテーションを持つロシアのニュースコーパスRuSentNEに基づいている。
論文 参考訳(メタデータ) (2023-05-28T10:04:15Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。
サンプルREG試験では,テキストダビンシ003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力が著しく低下していることが判明した。
最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文 参考訳(メタデータ) (2023-01-11T11:30:42Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Robustness Gym: Unifying the NLP Evaluation Landscape [91.80175115162218]
ディープニューラルネットワークは、現実のシステムにデプロイすると脆くなることが多い。
最近の研究は、そのようなモデルの堅牢性をテストすることに重点を置いている。
単純かつ評価可能なツールキットであるRobustness Gymの形で解を提案する。
論文 参考訳(メタデータ) (2021-01-13T02:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。