論文の概要: Performance of the Pre-Trained Large Language Model GPT-4 on Automated
Short Answer Grading
- arxiv url: http://arxiv.org/abs/2309.09338v1
- Date: Sun, 17 Sep 2023 18:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 16:02:02.007055
- Title: Performance of the Pre-Trained Large Language Model GPT-4 on Automated
Short Answer Grading
- Title(参考訳): 事前学習型大規模言語モデルGPT-4の短解像自動生成における性能評価
- Authors: Gerd Kortemeyer
- Abstract要約: SciEntsBank と Beetle の標準ベンチマーク2-way および 3-way データセットにおける GPT-4 の性能について検討した。
プレトレーニングされた汎用GPT-4 LLMの性能は手技のモデルに匹敵するが,専門訓練を施したLLMよりは劣ることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Short Answer Grading (ASAG) has been an active area of
machine-learning research for over a decade. It promises to let educators grade
and give feedback on free-form responses in large-enrollment courses in spite
of limited availability of human graders. Over the years, carefully trained
models have achieved increasingly higher levels of performance. More recently,
pre-trained Large Language Models (LLMs) emerged as a commodity, and an
intriguing question is how a general-purpose tool without additional training
compares to specialized models. We studied the performance of GPT-4 on the
standard benchmark 2-way and 3-way datasets SciEntsBank and Beetle, where in
addition to the standard task of grading the alignment of the student answer
with a reference answer, we also investigated withholding the reference answer.
We found that overall, the performance of the pre-trained general-purpose GPT-4
LLM is comparable to hand-engineered models, but worse than pre-trained LLMs
that had specialized training.
- Abstract(参考訳): 自動短解像(ASAG)は10年以上にわたって機械学習研究の活発な領域であった。
児童生徒が限られているにもかかわらず、大入学コースのフリーフォームの反応を教育者が評価し、フィードバックすることを約束している。
長年にわたり、注意深く訓練されたモデルはより高いレベルのパフォーマンスを実現してきた。
最近では、事前訓練された大規模言語モデル(llm)がコモディティとして登場し、追加のトレーニングなしで汎用ツールがどのように専門モデルと比較されるのか、興味深い疑問が投げかけられた。
また,標準ベンチマーク2-wayおよび3-wayデータセットscientsbankおよびklumiteにおけるgpt-4の性能について検討した。
総合的に, 訓練済み汎用GPT-4 LLMの性能は手作りモデルに匹敵するが, 専門訓練を施したLLMよりは劣ることがわかった。
関連論文リスト
- Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。
人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文 参考訳(メタデータ) (2024-09-02T04:14:13Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - Efficient Classification of Student Help Requests in Programming Courses
Using Large Language Models [2.5949084781328744]
本研究では,GPT-3.5 モデルと GPT-4 モデルを用いて,導入プログラミングクラスにおける学生のヘルプ要求の分類を行った。
GPT-3.5モデルの微調整により性能が向上し、2人のラッカー間で観察されたカテゴリ間の精度と一貫性が近似された。
論文 参考訳(メタデータ) (2023-10-31T00:56:33Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。