論文の概要: Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings
- arxiv url: http://arxiv.org/abs/2308.02575v1
- Date: Thu, 3 Aug 2023 12:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 19:57:39.482238
- Title: Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings
- Title(参考訳): GPT-4は信頼率が高いか?
GPT-4テキストレーティングにおける一貫性の評価
- Authors: Veronika Hackl, Alexandra Elena M\"uller, Michael Granitzer,
Maximilian Sailer
- Abstract要約: 本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
- 参考スコア(独自算出の注目度): 63.35165397320137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the consistency of feedback ratings generated by
OpenAI's GPT-4, a state-of-the-art artificial intelligence language model,
across multiple iterations, time spans and stylistic variations. The model
rated responses to tasks within the Higher Education (HE) subject domain of
macroeconomics in terms of their content and style. Statistical analysis was
conducted in order to learn more about the interrater reliability, consistency
of the ratings across iterations and the correlation between ratings in terms
of content and style. The results revealed a high interrater reliability with
ICC scores ranging between 0.94 and 0.99 for different timespans, suggesting
that GPT-4 is capable of generating consistent ratings across repetitions with
a clear prompt. Style and content ratings show a high correlation of 0.87. When
applying a non-adequate style the average content ratings remained constant,
while style ratings decreased, which indicates that the large language model
(LLM) effectively distinguishes between these two criteria during evaluation.
The prompt used in this study is furthermore presented and explained. Further
research is necessary to assess the robustness and reliability of AI models in
various use cases.
- Abstract(参考訳): 本研究では,OpenAIの最新の人工知能言語モデルであるGPT-4によるフィードバック評価の一貫性について,複数イテレーション,時間スパン,スタイリスティックなバリエーションについて検討した。
モデルは、その内容とスタイルの観点から、高等教育(he)のマクロ経済学の主題領域におけるタスクに対する反応を格付けした。
統計的分析を行い, インテラターの信頼性, イテレーション間における評価の一貫性, コンテンツとスタイルによる評価の相関性について検討した。
その結果、ICCスコアが0.94から0.99の範囲で異なるタイムパンに対して高いインターラッター信頼性を示し、GPT-4は明確なプロンプトで反復で一貫した評価を生成できることが示唆された。
スタイルとコンテンツ評価の相関は0.87である。
非適切なスタイルを適用する場合、平均コンテンツレーティングは一定であり、スタイルレーティングは減少し、大言語モデル(llm)は評価中にこれらの2つの基準を効果的に区別した。
本研究で用いられるプロンプトは,さらに提示され,説明される。
さまざまなユースケースにおいて、AIモデルの堅牢性と信頼性を評価するためには、さらなる研究が必要である。
関連論文リスト
- Enhancing Answer Reliability Through Inter-Model Consensus of Large Language Models [1.6874375111244329]
先進モデルを含む革新的な言語モデル相互作用システムの協調力学について検討する。
これらのモデルは、正確な基底的答えを伴わずに、複雑でPhDレベルの統計的疑問を生成し、答える。
本研究では,モデル間のコンセンサスによって応答の信頼性と精度が向上することを示す。
論文 参考訳(メタデータ) (2024-11-25T10:18:17Z) - Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。
テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。
解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-06T04:41:13Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。