論文の概要: NERIF: GPT-4V for Automatic Scoring of Drawn Models
- arxiv url: http://arxiv.org/abs/2311.12990v2
- Date: Sun, 24 Dec 2023 04:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:46:54.650098
- Title: NERIF: GPT-4V for Automatic Scoring of Drawn Models
- Title(参考訳): NERIF: ドローニングモデルの自動スコーリングのためのGPT-4V
- Authors: Gyeong-Geon Lee, and Xiaoming Zhai
- Abstract要約: 最近リリースされたGPT-4Vは、科学的モデリングの実践を前進させるユニークな機会を提供する。
我々は,GPT-4Vに学生の描画モデルを評価するための指導音とルーブリックを用いた手法を開発した。
GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。
- 参考スコア(独自算出の注目度): 0.6278186810520364
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scoring student-drawn models is time-consuming. Recently released GPT-4V
provides a unique opportunity to advance scientific modeling practices by
leveraging the powerful image processing capability. To test this ability
specifically for automatic scoring, we developed a method NERIF
(Notation-Enhanced Rubric Instruction for Few-shot Learning) employing
instructional note and rubrics to prompt GPT-4V to score students' drawn models
for science phenomena. We randomly selected a set of balanced data (N = 900)
that includes student-drawn models for six modeling assessment tasks. Each
model received a score from GPT-4V ranging at three levels: 'Beginning,'
'Developing,' or 'Proficient' according to scoring rubrics. GPT-4V scores were
compared with human experts' scores to calculate scoring accuracy. Results show
that GPT-4V's average scoring accuracy was mean =.51, SD = .037. Specifically,
average scoring accuracy was .64 for the 'Beginning' class, .62 for the
'Developing' class, and .26 for the 'Proficient' class, indicating that more
proficient models are more challenging to score. Further qualitative study
reveals how GPT-4V retrieves information from image input, including problem
context, example evaluations provided by human coders, and students' drawing
models. We also uncovered how GPT-4V catches the characteristics of
student-drawn models and narrates them in natural language. At last, we
demonstrated how GPT-4V assigns scores to student-drawn models according to the
given scoring rubric and instructional notes. Our findings suggest that the
NERIF is an effective approach for employing GPT-4V to score drawn models. Even
though there is space for GPT-4V to improve scoring accuracy, some mis-assigned
scores seemed interpretable to experts. The results of this study show that
utilizing GPT-4V for automatic scoring of student-drawn models is promising.
- Abstract(参考訳): 学生が描いたモデルの装飾には時間がかかる。
最近リリースされたGPT-4Vは、強力な画像処理機能を活用することで、科学的モデリングの実践を促進するユニークな機会を提供する。
自動採点に特化してこの能力を試験するために,GPT-4Vに指導用ノートとルーリックを用いたNERIF(Notation-Enhanced Rubric Instruction for Few-shot Learning)を開発した。
6つのモデリング評価タスクのために学生が作成したモデルを含むバランスデータ(n = 900)をランダムに選択した。
GPT-4Vのスコアは, それぞれ「ベジンニング」, 「開発」, 「熟練」の3レベルであった。
GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。
その結果, GPT-4Vの平均評価精度は平均=.51, SD=.037であった。
具体的には、平均スコアリング精度は、"beginning"クラスでは.64、"developing"クラスでは.62、"proficient"クラスでは.26であり、より熟練したモデルの方がスコアリングが難しいことを示している。
さらに質的研究により、GPT-4Vは、問題コンテキスト、人間のコーダによるサンプル評価、学生の描画モデルを含む、画像入力から情報を取得する方法を明らかにする。
また,GPT-4Vが学生が描いたモデルの特徴をいかに捉え,自然言語でナレーションするかを明らかにした。
最終的に,gpt-4vが与えられたスコアルブリックと指導ノートに従って,学生が作成したモデルにスコアを割り当てる様子を実演した。
その結果, NERIF は GPT-4V を用いた描画モデルに有効であることが示唆された。
GPT-4Vは精度を向上する余地はあるものの、いくつかの誤ったスコアは専門家に解釈可能であるように思われた。
本研究の結果から,GPT-4Vを用いた学生図面の自動採点が期待できることがわかった。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。
人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文 参考訳(メタデータ) (2024-09-02T04:14:13Z) - Gemini Pro Defeated by GPT-4V: Evidence from Education [1.0226894006814744]
GPT-4Vは、スコアリング精度と四重み付きカッパの点でゲミニプロを著しく上回っている。
GPT-4Vは複雑な教育課題に対処する能力に優れていた。
論文 参考訳(メタデータ) (2023-12-27T02:56:41Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Using GPT-4 to Augment Unbalanced Data for Automatic Scoring [0.5586073503694489]
生成型大規模言語モデルである GPT-4 を利用した新しいテキストデータ拡張フレームワークを提案する。
我々は GPT-4 で応答を生成するプロンプトを作成した。
拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
論文 参考訳(メタデータ) (2023-10-25T01:07:50Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。