Fugu-MT 論文翻訳(概要): Performance of the Pre-Trained Large Language Model GPT-4 on Automated Short Answer Grading

論文の概要: Performance of the Pre-Trained Large Language Model GPT-4 on Automated Short Answer Grading

arxiv url: http://arxiv.org/abs/2309.09338v1
Date: Sun, 17 Sep 2023 18:04:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 16:02:02.007055
Title: Performance of the Pre-Trained Large Language Model GPT-4 on Automated Short Answer Grading
Title（参考訳）: 事前学習型大規模言語モデルGPT-4の短解像自動生成における性能評価
Authors: Gerd Kortemeyer
Abstract要約: SciEntsBank と Beetle の標準ベンチマーク2-way および 3-way データセットにおける GPT-4 の性能について検討した。プレトレーニングされた汎用GPT-4 LLMの性能は手技のモデルに匹敵するが,専門訓練を施したLLMよりは劣ることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated Short Answer Grading (ASAG) has been an active area of machine-learning research for over a decade. It promises to let educators grade and give feedback on free-form responses in large-enrollment courses in spite of limited availability of human graders. Over the years, carefully trained models have achieved increasingly higher levels of performance. More recently, pre-trained Large Language Models (LLMs) emerged as a commodity, and an intriguing question is how a general-purpose tool without additional training compares to specialized models. We studied the performance of GPT-4 on the standard benchmark 2-way and 3-way datasets SciEntsBank and Beetle, where in addition to the standard task of grading the alignment of the student answer with a reference answer, we also investigated withholding the reference answer. We found that overall, the performance of the pre-trained general-purpose GPT-4 LLM is comparable to hand-engineered models, but worse than pre-trained LLMs that had specialized training.
Abstract（参考訳）: 自動短解像(ASAG)は10年以上にわたって機械学習研究の活発な領域であった。児童生徒が限られているにもかかわらず、大入学コースのフリーフォームの反応を教育者が評価し、フィードバックすることを約束している。長年にわたり、注意深く訓練されたモデルはより高いレベルのパフォーマンスを実現してきた。最近では、事前訓練された大規模言語モデル(llm)がコモディティとして登場し、追加のトレーニングなしで汎用ツールがどのように専門モデルと比較されるのか、興味深い疑問が投げかけられた。また,標準ベンチマーク2-wayおよび3-wayデータセットscientsbankおよびklumiteにおけるgpt-4の性能について検討した。総合的に, 訓練済み汎用GPT-4 LLMの性能は手作りモデルに匹敵するが, 専門訓練を施したLLMよりは劣ることがわかった。

関連論文リスト

Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。 GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-18T23:38:21Z)
Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文参考訳（メタデータ） (2024-09-02T04:14:13Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。 InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。 InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文参考訳（メタデータ） (2024-03-26T00:53:24Z)
Efficient Classification of Student Help Requests in Programming Courses Using Large Language Models [2.5949084781328744]
本研究では,GPT-3.5 モデルと GPT-4 モデルを用いて,導入プログラミングクラスにおける学生のヘルプ要求の分類を行った。 GPT-3.5モデルの微調整により性能が向上し、2人のラッカー間で観察されたカテゴリ間の精度と一貫性が近似された。
論文参考訳（メタデータ） (2023-10-31T00:56:33Z)
LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。 LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文参考訳（メタデータ） (2023-05-18T17:45:22Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-03-14T04:26:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。