論文の概要: Can GPT-4 do L2 analytic assessment?
- arxiv url: http://arxiv.org/abs/2404.18557v1
- Date: Mon, 29 Apr 2024 10:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 14:07:29.239939
- Title: Can GPT-4 do L2 analytic assessment?
- Title(参考訳): GPT-4はL2分析に有効か?
- Authors: Stefano Bannò, Hari Krishna Vydana, Kate M. Knill, Mark J. F. Gales,
- Abstract要約: 第二言語(L2)の習熟度を評価するための自動エッセイスコア(AES)は、何十年にもわたって教育の文脈で使われている、しっかりと確立された技術である。
本稿では,GPT-4をゼロショット方式で,総合的なスコアを付加したデータセット上で,一連の実験を行う。
自動予測された分析スコアと,個々の習熟度成分に関連する複数の特徴との間に有意な相関関係が認められた。
- 参考スコア(独自算出の注目度): 34.445391091278786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated essay scoring (AES) to evaluate second language (L2) proficiency has been a firmly established technology used in educational contexts for decades. Although holistic scoring has seen advancements in AES that match or even exceed human performance, analytic scoring still encounters issues as it inherits flaws and shortcomings from the human scoring process. The recent introduction of large language models presents new opportunities for automating the evaluation of specific aspects of L2 writing proficiency. In this paper, we perform a series of experiments using GPT-4 in a zero-shot fashion on a publicly available dataset annotated with holistic scores based on the Common European Framework of Reference and aim to extract detailed information about their underlying analytic components. We observe significant correlations between the automatically predicted analytic scores and multiple features associated with the individual proficiency components.
- Abstract(参考訳): 第二言語(L2)の習熟度を評価するための自動エッセイスコア(AES)は、何十年にもわたって教育の文脈で使われている、しっかりと確立された技術である。
総合的なスコアリングは、人間のパフォーマンスと一致したり、超えたりするようなAESの進歩を見てきたが、解析的なスコアリングは、人間のスコアリングプロセスから欠陥や欠点を継承するので、依然として問題に直面している。
近年の大規模言語モデルの導入は,L2書記能力の特定の面の評価を自動化する新たな機会を提供する。
本稿では,GPT-4をゼロショット方式で,共通ヨーロッパ参照フレームワークに基づく総合的なスコアを付加した公開データセット上で一連の実験を行い,その基盤となる分析成分に関する詳細な情報を抽出することを目的とする。
自動予測された分析スコアと,個々の習熟度成分に関連する複数の特徴との間に有意な相関関係が認められた。
関連論文リスト
- Evaluating AI-Generated Essays with GRE Analytical Writing Assessment [15.993966092824335]
本研究は,10個のLLMが生成したエッセイを用いて,研究記録エグゼクティブ(GRE)の分析書面アセスメントについて検討する。
我々はこれらのエッセイを、GREスコアリングパイプラインで用いられるように、人間のレーダとe-rater自動スコアリングエンジンの両方を用いて評価した。
GPT-4oは平均4.78点、GPT-4oは4.67点だった。
論文 参考訳(メタデータ) (2024-10-22T21:30:58Z) - Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models [21.280725490520798]
本稿では,大規模言語モデルによる公衆衛生クレームの検証に焦点をあてる。
各種オープンおよびクローズドソースモデルにおける0/fwショットプロンプトとパラメータ効率の微調整の有効性について検討する。
論文 参考訳(メタデータ) (2024-05-15T15:49:06Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - From Voices to Validity: Leveraging Large Language Models (LLMs) for
Textual Analysis of Policy Stakeholder Interviews [14.135107583299277]
本研究では,米国内におけるK-12教育政策に関するステークホルダインタビューのテキスト分析を強化するために,大規模言語モデル(LLM)と人間の専門知識の統合について検討する。
混合メソッドのアプローチを用いて、ドメイン知識や教師なしトピックモデリングの結果から情報を得たコードブックとコーディングプロセスを開発した。
結果、GPT-4のテーマは、特定のテーマで77.89%の精度で人間のコーディングと一致しているが、より広いテーマが一致し96.02%に拡大し、従来の自然言語処理(NLP)の手法を25%以上上回った。
論文 参考訳(メタデータ) (2023-12-02T18:55:14Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - A Large Language Model Approach to Educational Survey Feedback Analysis [0.0]
本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。
論文 参考訳(メタデータ) (2023-09-29T17:57:23Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。