論文の概要: The Impact of Example Selection in Few-Shot Prompting on Automated Essay Scoring Using GPT Models
- arxiv url: http://arxiv.org/abs/2411.18924v1
- Date: Thu, 28 Nov 2024 05:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:56.853265
- Title: The Impact of Example Selection in Few-Shot Prompting on Automated Essay Scoring Using GPT Models
- Title(参考訳): GPTモデルを用いた自動評価における実例選択の影響
- Authors: Lui Yoshida,
- Abstract要約: 本研究は,サンプル選択がAES(Au-tomated essay score)の性能に及ぼす影響を,GPTモデルを用いた少数ショットプロンプトを用いて検討する。
GPT-3.5 モデルと GPT-4 モデルの複数バージョンにおいて, 実例の選択と順序が, 実例選択に与える影響について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study investigates the impact of example selection on the performance of au-tomated essay scoring (AES) using few-shot prompting with GPT models. We evaluate the effects of the choice and order of examples in few-shot prompting on several versions of GPT-3.5 and GPT-4 models. Our experiments involve 119 prompts with different examples, and we calculate the quadratic weighted kappa (QWK) to measure the agreement between GPT and human rater scores. Regres-sion analysis is used to quantitatively assess biases introduced by example selec-tion. The results show that the impact of example selection on QWK varies across models, with GPT-3.5 being more influenced by examples than GPT-4. We also find evidence of majority label bias, which is a tendency to favor the majority la-bel among the examples, and recency bias, which is a tendency to favor the label of the most recent example, in GPT-generated essay scores and QWK, with these biases being more pronounced in GPT-3.5. Notably, careful example selection enables GPT-3.5 models to outperform some GPT-4 models. However, among the GPT models, the June 2023 version of GPT-4, which is not the latest model, exhibits the highest stability and performance. Our findings provide insights into the importance of example selection in few-shot prompting for AES, especially in GPT-3.5 models, and highlight the need for individual performance evaluations of each model, even for minor versions.
- Abstract(参考訳): 本研究は,サンプル選択がAES(Au-tomated essay score)の性能に及ぼす影響を,GPTモデルを用いた少数ショットプロンプトを用いて検討する。
GPT-3.5 モデルと GPT-4 モデルの複数バージョンにおいて, 実例の選択と順序が, 実例選択に与える影響について検討した。
実験では119個のプロンプトを異なる例で示し,2次重み付きカッパ(QWK)を算出し,GPTとヒトのレーダスコアの一致度を測定した。
レグレッション分析は、例 selec-tion によって導入されたバイアスを定量的に評価するために用いられる。
その結果、サンプル選択がQWKに与える影響はモデルによって異なり、GPT-3.5はGPT-4よりも例の影響が強いことがわかった。
また, GPT-3.5では, GPT-3.5では, 多数派が支持する傾向にある多数派ラベルバイアスや, GPT-3.5ではその傾向が強く, GPT-3.5では, 最新の事例のラベルを好んでいる傾向にある, 多数派ラベルバイアスの証拠も見出された。
特に、注意深いサンプル選択により、GPT-3.5モデルはいくつかのGPT-4モデルより優れている。
しかし、GPTモデルの中では、2023年6月版のGPT-4は最新のモデルではないため、安定性と性能が最も高い。
本研究は,特にGPT-3.5モデルにおいて,AESにおけるサンプル選択の重要性について考察し,マイナーバージョンにおいても,各モデルの個別のパフォーマンス評価の必要性を強調した。
関連論文リスト
- Optimizing Performance: How Compact Models Match or Exceed GPT's Classification Capabilities through Fine-Tuning [0.0]
非生成の小型モデルは、ゼロショット学習設定でGPT-3.5およびGPT-4モデルより優れている。
細調整されたモデルは、市場感情を決定するタスクに基づいて微調整されたときに、GPT-3.5に匹敵する結果を示す。
論文 参考訳(メタデータ) (2024-08-22T09:10:43Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - InheritSumm: A General, Versatile and Compact Summarizer by Distilling
from GPT [75.29359361404073]
InheritSummは、蒸留によりGPT-3.5から派生した汎用的でコンパクトな要約モデルである。
GPT-3.5と同様、ゼロショットやスプリットショットの設定でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T14:52:32Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。