Fugu-MT 論文翻訳(概要): Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings

論文の概要: Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings

arxiv url: http://arxiv.org/abs/2308.02575v1
Date: Thu, 3 Aug 2023 12:47:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 19:57:39.482238
Title: Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings
Title（参考訳）: GPT-4は信頼率が高いか? GPT-4テキストレーティングにおける一貫性の評価
Authors: Veronika Hackl, Alexandra Elena M\"uller, Michael Granitzer, Maximilian Sailer
Abstract要約: 本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
参考スコア（独自算出の注目度）: 63.35165397320137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates the consistency of feedback ratings generated by OpenAI's GPT-4, a state-of-the-art artificial intelligence language model, across multiple iterations, time spans and stylistic variations. The model rated responses to tasks within the Higher Education (HE) subject domain of macroeconomics in terms of their content and style. Statistical analysis was conducted in order to learn more about the interrater reliability, consistency of the ratings across iterations and the correlation between ratings in terms of content and style. The results revealed a high interrater reliability with ICC scores ranging between 0.94 and 0.99 for different timespans, suggesting that GPT-4 is capable of generating consistent ratings across repetitions with a clear prompt. Style and content ratings show a high correlation of 0.87. When applying a non-adequate style the average content ratings remained constant, while style ratings decreased, which indicates that the large language model (LLM) effectively distinguishes between these two criteria during evaluation. The prompt used in this study is furthermore presented and explained. Further research is necessary to assess the robustness and reliability of AI models in various use cases.
Abstract（参考訳）: 本研究では,OpenAIの最新の人工知能言語モデルであるGPT-4によるフィードバック評価の一貫性について,複数イテレーション,時間スパン,スタイリスティックなバリエーションについて検討した。モデルは、その内容とスタイルの観点から、高等教育(he)のマクロ経済学の主題領域におけるタスクに対する反応を格付けした。統計的分析を行い, インテラターの信頼性, イテレーション間における評価の一貫性, コンテンツとスタイルによる評価の相関性について検討した。その結果、ICCスコアが0.94から0.99の範囲で異なるタイムパンに対して高いインターラッター信頼性を示し、GPT-4は明確なプロンプトで反復で一貫した評価を生成できることが示唆された。スタイルとコンテンツ評価の相関は0.87である。非適切なスタイルを適用する場合、平均コンテンツレーティングは一定であり、スタイルレーティングは減少し、大言語モデル(llm)は評価中にこれらの2つの基準を効果的に区別した。本研究で用いられるプロンプトは,さらに提示され,説明される。さまざまなユースケースにおいて、AIモデルの堅牢性と信頼性を評価するためには、さらなる研究が必要である。

関連論文リスト

Understanding AI Evaluation Patterns: How Different GPT Models Assess Vision-Language Descriptions [0.4078247440919473]
本研究ではNVIDIAのDescribe Anything Modelによって生成された視覚言語記述を分析する。 3種類のGPT変異体(GPT-4o, GPT-4o-mini, GPT-5)を評価し, 異なる「評価人格」を明らかにする。 GPT-4o-miniは最小分散の系統的整合性を示し、GPT-4oはエラー検出時に優れ、GPT-5は高い可変性を持つ極端保存性を示す。
論文参考訳（メタデータ） (2025-09-12T21:48:59Z)
When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。 Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文参考訳（メタデータ） (2025-08-15T10:32:50Z)
Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education [0.30158609733245967]
高等教育環境におけるエッセイ自動評価において,5つの高度な大規模言語モデル (LLM) , Claude 3.5, DeepSeek v2, Gemini 2.5, GPT-4, Mistral 24B について検討した。イタリア語の学生エッセイは、合計67点が4基準ルーブリックを用いて評価された。人間とLLMの合意は一貫して低く、非重要であり、複製間のモデル内信頼性も同様に弱かった。
論文参考訳（メタデータ） (2025-08-04T14:02:12Z)
Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings [0.6008132390640295]
本稿では, GPT-4を, 21種類の評価評価の読み手として, 異なるプロンプト設定で検討する。その結果, GPT-4はヒトのアノテータに近づいたり, わずかに良く機能する効果的なリーダ・アノテータであることがわかった。
論文参考訳（メタデータ） (2025-03-21T06:35:49Z)
Enhancing Answer Reliability Through Inter-Model Consensus of Large Language Models [1.6874375111244329]
先進モデルを含む革新的な言語モデル相互作用システムの協調力学について検討する。これらのモデルは、正確な基底的答えを伴わずに、複雑でPhDレベルの統計的疑問を生成し、答える。本研究では,モデル間のコンセンサスによって応答の信頼性と精度が向上することを示す。
論文参考訳（メタデータ） (2024-11-25T10:18:17Z)
Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-11-06T04:41:13Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。 2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文参考訳（メタデータ） (2023-11-15T11:27:44Z)
Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。 ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文参考訳（メタデータ） (2023-10-20T20:17:09Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文参考訳（メタデータ） (2022-09-26T01:04:52Z)
Investigating Crowdsourcing Protocols for Evaluating the Factual Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文参考訳（メタデータ） (2021-09-19T19:05:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。