論文の概要: Performance of the Pre-Trained Large Language Model GPT-4 on Automated
Short Answer Grading
- arxiv url: http://arxiv.org/abs/2309.09338v1
- Date: Sun, 17 Sep 2023 18:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 16:02:02.007055
- Title: Performance of the Pre-Trained Large Language Model GPT-4 on Automated
Short Answer Grading
- Title(参考訳): 事前学習型大規模言語モデルGPT-4の短解像自動生成における性能評価
- Authors: Gerd Kortemeyer
- Abstract要約: SciEntsBank と Beetle の標準ベンチマーク2-way および 3-way データセットにおける GPT-4 の性能について検討した。
プレトレーニングされた汎用GPT-4 LLMの性能は手技のモデルに匹敵するが,専門訓練を施したLLMよりは劣ることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Short Answer Grading (ASAG) has been an active area of
machine-learning research for over a decade. It promises to let educators grade
and give feedback on free-form responses in large-enrollment courses in spite
of limited availability of human graders. Over the years, carefully trained
models have achieved increasingly higher levels of performance. More recently,
pre-trained Large Language Models (LLMs) emerged as a commodity, and an
intriguing question is how a general-purpose tool without additional training
compares to specialized models. We studied the performance of GPT-4 on the
standard benchmark 2-way and 3-way datasets SciEntsBank and Beetle, where in
addition to the standard task of grading the alignment of the student answer
with a reference answer, we also investigated withholding the reference answer.
We found that overall, the performance of the pre-trained general-purpose GPT-4
LLM is comparable to hand-engineered models, but worse than pre-trained LLMs
that had specialized training.
- Abstract(参考訳): 自動短解像(ASAG)は10年以上にわたって機械学習研究の活発な領域であった。
児童生徒が限られているにもかかわらず、大入学コースのフリーフォームの反応を教育者が評価し、フィードバックすることを約束している。
長年にわたり、注意深く訓練されたモデルはより高いレベルのパフォーマンスを実現してきた。
最近では、事前訓練された大規模言語モデル(llm)がコモディティとして登場し、追加のトレーニングなしで汎用ツールがどのように専門モデルと比較されるのか、興味深い疑問が投げかけられた。
また,標準ベンチマーク2-wayおよび3-wayデータセットscientsbankおよびklumiteにおけるgpt-4の性能について検討した。
総合的に, 訓練済み汎用GPT-4 LLMの性能は手作りモデルに匹敵するが, 専門訓練を施したLLMよりは劣ることがわかった。
関連論文リスト
- InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4
and Bard's Capacity to Handle Object-Oriented Programming Assignments [0.0]
大規模言語モデル(LLM)は、プログラミング課題を解決しながら学生を支援するための有望なツールとして登場した。
本研究では,3つの卓越したLCMを用いて,実環境におけるOOPの課題を解決する実験を行った。
この結果から、モデルはエクササイズに対する動作可能なソリューションを多く達成する一方で、OOPのベストプラクティスを見落としていることが判明した。
論文 参考訳(メタデータ) (2024-03-10T16:40:05Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - From Automation to Augmentation: Large Language Models Elevating Essay
Scoring Landscape [14.758096079392674]
本研究では,大規模言語モデル(LLM),特に GPT-4 と細調整 GPT-3.5 が,自動エッセイ評価システムにおける有効性について検討した。
パブリックデータセットとプライベートデータセットの両方で実施した総合的な実験は、LLMベースのAESシステムの顕著な利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - Efficient Classification of Student Help Requests in Programming Courses
Using Large Language Models [2.5949084781328744]
本研究では,GPT-3.5 モデルと GPT-4 モデルを用いて,導入プログラミングクラスにおける学生のヘルプ要求の分類を行った。
GPT-3.5モデルの微調整により性能が向上し、2人のラッカー間で観察されたカテゴリ間の精度と一貫性が近似された。
論文 参考訳(メタデータ) (2023-10-31T00:56:33Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。